4/3/10

EL TEMIBLE EFECTO DE DISEÑO

Las muestras que usamos en estudios de mercado no son precisamente las muestras aleatorias simples a partir de las cuales obtenemos rápida y sencillamente promedios (que pueden ser porcentajes) o los márgenes de error con los que trabajamos. Ello equivaldría a sortear tantos puntos muestra como el tamaño que hayamos decidido para la misma, así el número de manzanas elegidas será igual al tamaño muestral y en cada una se elegirá un hogar y en cada uno una persona.
Imagínese el trajín que esto significa en cuánto a traslados de los entrevistadores y su mayor necesidad de tiempo, la consiguiente mengua de la cantidad de entrevistas diarias por encuestador y el resultante incremento de los costos del estudio. Para paliar estos inconvenientes desde siempre se ha recurrido al muestreo por conglomerados que consiste en agrupar a los entrevistados en puntos muestra cuya cantidad está en relación con el tamaño muestral, de modo que el encuestador pueda realizar las entrevistas de cada uno de ellos en a lo sumo una jornada.
Claro que todo esto no resulta gratis. En los puntos muestra generalmente ocurre que la distribución de la población en los mismos no es aleatoria: si la encuesta es sobre producto depende por ejemplo de la distribución física del mismo en los negocios de la zona; si es un estudio de opinión dependerá de las características laborales y socioeconómicas en la zona, etc. y existe entonces una homogeneización de la población que hace que aumente la varianza al diferenciarse más de la población de otros puntos muestra.
Ejemplo (no real): Una compañía de seguros desea conocer la cantidad de automovilistas en una ciudad y proyecta una investigación con tamaño muestral n=500 casos, distribuidos en m=50 puntos muestra de l=10 casos cada uno, obteniendo las siguientes cantidades (Yi) de dueños de automóvil por punto muestra:

Yi=3,6,3,5,6,9,4,5,3,5,7,0,6,1,5,8,0,4,8,2,0,2,6,8,6,0,0,6,6,5,0,1,5,6,7,9,44,8,7,6,7,3,0,4,5,0,7,8,7

El total de los poseedores de automóvil es la suma de estos valores (227), y el promedio de poseedores es para esta ciudad de 45,4% la varianza de esta última cifra es:
Var c = (1/pm)*(1/ ((pm-1)*T))*(ΣYi^2-(ΣYi)^2/pm) =18,9*10^-4,
donde var c es la varianza entre los conglomerados, pm la cantidad de puntos muestra, T el total de casos por punto muestra, Yi es la cantidad de dueños de automóvil en cada conglomerado, e Yi2 es el cuadrado de cada uno de ellos.
Si se hubieran elegido 500 puntos muestra la varianza sería, con nuestra conocida var = pq/(n-1) = 45,4*54,6/499 = 4,97*10^-4, o sea que el hecho de conglomerar la muestra hace que la varianza se incremente en una proporción dada por 18,9/4,97 = 3,80 que es la magnitud en que se incrementa la variación debido al efecto del diseño: efd=3,80, o lo que es lo mismo el error estándar se incrementa en 1,95 que es la raíz de 3,8. Cuando se calcula el error estándar como si hubiésemos sorteado la muestra al azar simple, estamos subestimando el error real. En este caso si se elige trabajar con un 95% de confianza (1,96ѕ), en realidad estaremos trabajando con (1,96/1,95)ѕ = 1,005ѕ, aproximadamente 68% de confianza. O lo que es lo mismo es como tener una muestra de sólo 500/3,8 =131 casos.
Naturalmente esto depende de cada estudio, si se buscaran automóviles de los últimos años, se sortearían determinadas zonas de la ciudad con mayor parecido y resultaría una menor variación entre los conglomerados y una disminución considerable del efd. También depende de las características del producto o servicio objeto de la investigación y de su masividad. Otra forma de disminuir el efd consiste en emplear otro tipo de estimadores que si bien son conocidos desde bastante tiempo no han sido empleados con la frecuencia que ameritan sus propiedades, pero esto es ya harina de otro costal.