27/7/10

USOS DEL COEFICIENTE DE GINI

Examinemos que ocurre si en lugar de trabajar con deciles la información de la EPH como en el caso de los datos de Mayo 1991 y octubre de 2002 (post anterior) se lo hace – para los mismos informes – con quintiles para lo que basta con tomar los renglones correspondientes al 20, 40, 60, 80, y 100% de la población en las tablas 6 y 7 del post anterior. El lector puede así comprobar que los nuevos coeficientes son algo mayores: 0.497 y 0.563 respectivamente aunque conservan la tendencia. 

Tanto con los quintiles como con los deciles se trata de agrupaciones de los datos, en intervalos del 10 ó 20% de la muestra respectivamente, pero se puede calcular el índice sin agrupar los mismos, y así como el índice de Gini es menor calculado en deciles que en quintiles, cuando no se agrupa y se ordena de menor a mayor cada uno de los n valores se está comparando con los n-1 valores restantes y el coeficiente resulta ser el menor de todos los posibles, sea cuál sea el valor de porcentaje que se empleare. Este es el valor que resulta del procesamiento de las mediciones de los centros estadísticos oficiales de los distintos países, que disponen de los datos relevados en campo y por lo tanto pueden ordenarlos.
Esto plantea una cuestión interesante ¿los análisis posibles a partir de los deciles – o cualquier otra agrupación de los datos - se compatibilizan con estos índices mínimos?

En el caso de los deciles, desde la iniciación de la EPH continúa en el 3er. trimestre del 2003 hasta el 1er trimestre del 2010, los datos obtenidos para el ingreso per cápita familiar (personas) fueron:
0,579-0,568-0,570-0,556-0,545-0,531-0,539-0,525-0,541-0,514-0,531-0,514-0,518-0,523-0,484-0,498- -0,512-0,504-0,488-0,509-0,487-0,494-0,497-0,496-0,483-0,485.

Los correspondientes suministrados por el INDEC fueron:
0,534-0,525-0,512-0,513-0,502-0,494-0,496-0,487-0,500-0,475-0,489-0,473-0,476-0,485-0,476-0,460- -0,472-0,463-0,450-0,469-0,450-0,454-0,460-0,457-0,446-0,447.

Los espacios en blanco corresponden a la medición del 3er. trimestre de 2007, no realizada por una huelga. La correlación entre ambas series de datos es 0,98 que resulta altamente significativa ya que el valor de la t de Student, que es la función aplicable en este caso, es 24,24 en tanto que el valor crítico de tablas es de 2,80 para un nivel de confianza del 99% y 24 grados de libertad (el nº. de datos menos 2). Si se observa que el orden de los datos no es el mismo en ambas series, nos tranquiliza saber que el coeficiente de correlación por rangos de Spearman, que es el aplicable cuando hay diferencias entre los ordenamientos, es 0,948 y el valor de t es ahora de 14,62 para la misma confianza y grados de libertad. Si consideramos que el valor máximo para una correlación es 1, los altos valores obtenidos, y su alta significación nos indican que a los efectos prácticos las tendencias observables para cada serie de datos (que por otra parte se obtienen de la misma base) son las mismas no influyendo ni siquiera el distinto orden de las mediciones trimestrales cuando se las ordena de mayor a menor por el índice de Gini. En consecuencia para los análisis como los que siguen es válido trabajar en base a los deciles.

Reconociendo el valor de las diferencias.
Para el análisis de los cambios que se dan en cualquier orden de las ciencias se hace necesario tener en cuenta el grado de las diferencias que se hayan encontrado para conocer si las mismas son de existencia real o simplemente se deben a errores de muestreo inducidos por lo general por un tamaño insuficiente de la muestra (suponiendo que se trata de estudios realizados bajo normas profesionales, lo que elimina otras fuentes de error). En el caso de la EPH, consideremos la base de 25000 hogares que tiene en cada trimestre, que además el cuadro 29 de la misma nos da un promedio de 3,24 personas por hogar y la encuesta de empleo y desempleo una población activa del 46%, a los efectos prácticos podemos estimar la muestra de personas ocupadas en unas 37200 personas. Esto viene a cuento para la comparación entre trimestres, particularmente con el de un año antes: las diferencias que se observaren entre ellos ¿serán significativas?, porque para su elucidación se debe usar una fórmula de Ji-cuadrado que incluye la mayor diferencia (D) entre las funciones acumuladas de la distribución de ingresos de los trimestres considerados y el tamaño de la muestra de respondentes con ingresos que es lo que hemos estimado en unas 37200 personas y que en dicha fórmula se incluye como una expresión igual a n/2. 

Nuestro criterio para el análisis estadístico es que cuando se supera el valor crítico de tablas del 90% de confianza existe una tendencia, cuando se supera el del 95%, hay una diferencia significativa, y cuando se supera el del 99% es altamente significativa. Si comparamos los deciles del 1er. trimestre de los años 2008, 2009 y 2010, las mayores diferencias observadas son:
Entre 2008 y 2009: 0,011 en el 9º decil Ji-cuadrado = 9,00

Entre 2009 y 2010: 0,008 en los deciles 4, 5, y 6 Ji-cuadrado = 4,76

Entre 2008 y 2010: 0,014 en el decil Ji-cuadrado = 14,58

En el primer caso el valor de Ji-cuadrado supera al de tablas (5,99) para el nivel de confianza del 95% por lo que la diferencia es significativa y hasta el decil 9 se observa una mejora de la distribución de los ingresos de la población a costa del decil 10.

En el segundo caso el valor es superior al de tablas (4,60) para el nivel del 90% y hay una tendencia hacia la mejora de la distribución sobre todo hasta el decil 4.

Por último juntando los dos años el valor supera al de tablas para un nivel del 99% (9,21). En este caso la mejora es hasta el decil 6.

Otra forma de considerar los cambios, esta vez teniendo en cuenta la evolución de los índices de Gini, es decir viendo toda la película (todos los trimestres desde que se pasó a la EPH continua, 3er trimestre de 2003) en lugar de las fotos (determinados trimestres) como recién lo hemos hecho con las distribuciones por deciles, es mediante el análisis de la correlación de ellos con el transcurso del tiempo:
La correlación entre ambas series (tabla 1) es r = -0,942, que es alta y negativa y quiere decir que el índice baja cuando pasa el tiempo y esta baja es altamente significativa por cuanto el valor absoluto de la distribución t de Student es 14,3

7/7/10

LA DESIGUALDAD SOCIAL VISTA DESDE LA ESTADÍSTICA.

Indicadores e índices para resumir en unos pocos datos las características de determinados objetos de estudio, poblaciones en particular, es algo común en las ciencias sociales. Como algunas veces no son considerados los indicadores pertinentes o son insuficientes dado el carácter de simplificación del método no se alcanzan los objetivos perseguidos. Asimismo existen manipulaciones de los índices en función de intereses de sectores públicos o privados. Una complementación de estos intereses se realizó en los años de la última dictadura cuando se creó el índice de precios al consumidor “no cárneo” dado que la carne es el consumo con mayor ponderación dentro del citado índice, con el objeto de que el índice normal presentara valores de inflación rebajados. Cuando se superó esta situación, es decir una vez alcanzado el precio deseado por los productores, se volvió al índice habitual. Análogamente durante el gobierno de Menem se reestructuró el índice de desocupación incluyendo los planes Trabajar con lo que se rebajó el índice. Actualmente, se incluyen como válidos algunos precios en el IPC, que son el producto de convenios con sectores empresarios, que por lo general brillan por su ausencia en las estanterías. Se logra así también una rebaja del índice.
Cuando el uso de los índices se absolutiza por lo general sin alcanzar niveles de análisis suficientes se desinforma a los lectores manipulándolos. Por ejemplo, en muchas ocasiones se trata de medir el índice del bienestar de una población mediante el PBI per cápita. En primer lugar el PBI per cápita es un promedio y por lo tanto no da cuenta de la distribución de la riqueza. Suele ocurrir que un promedio razonable esté acompañado por una gran parte de la población por debajo de la línea de pobreza. Realmente lo que hay que medir son los bienes que se pueden adquirir según las horas trabajadas en relación con el PBI per cápita, que generalmente está dado en dólares. Como colofón, en 1999 los datos que se publicaron del PBI estaban inflados como se reconoció a posteriori.
El estudio estadístico de las desigualdades, en particular la social, tiene bibliografía en castellano desde hace sesenta y cinco años (Gini, Corrado: Curso de estadística, Editorial Labor, 1935.) y no necesita de conocimientos de matemáticas superiores, a pesar de lo cual es poco mencionado en los medios tanto por economistas, ni por periodistas económicos, quedando así su consideración casi excluida del flujo informativo.
De los diversos índices propuestos el de Gini es el más usual, que al poner la distribución de una variable en una población dada en comparación con otra que es la más equitativa posible respecto de la misma variable. La desigualdad en dicha población, respecto de la variable considerada, (p. ej. ingresos, tamaño de las propiedades rurales y toda otra variable de concentración), se mide por la diferencia entre ambas distribuciones.

Cálculos
Estas variables que suelen presentarse en la forma: el 20% con mayores ingresos de la población tiene el 52% del total de los mismos, mientras que el 20% con los menores ingresos tiene sólo el 4%, necesitan para la aplicación del índice de Gini tener en cuenta al resto de la población agrupada en intervalos iguales p. ej. 20%, lo que nos determina cinco intervalos que convencionalmente se ordenan desde el 1 que contiene a la población de menores recursos, hasta el 5 que corresponde a la de mayores recursos, indicando asimismo con Pi e $i la población y los ingresos acumulados hasta el intervalo i en las dos últimas columnas, que como veremos se usan en el índice para determinar la desigualdad:
En efecto, en cada fila se puede observar la diferencia de los ingresos de la población con respecto a la distribución equitativa de los mismos, pudiéndose formar así la tabla 2, donde están todos los componentes que intervienen en la fórmula, por lo que la mayor parte de nuestras referencias de aquí en más lo serán en relación con estas tablas de valores acumulados:
El índice de Gini G se define mediante
o sea que el último intervalo no se toma en cuenta. Para el ejemplo de la tabla 2 resulta G = 108/200 = 0.54. Es importante determinar si el índice cumple con las condiciones que lo hacen útil como tal. En primer lugar el valor de G no depende de las unidades en que se midan los valores, así p. ej. En la tabla 2, se dan las cifras en porcentajes. Pasando a decimales se tiene la tabla 3:
Ahora resulta G = 1,08/2 = 0,54. Ante el cambio de escala G permanece constante, no depende de las unidades en que se mida: pesos, dólares, etc.
En segundo lugar el índice así formulado, varía entre 0 (igualdad) y 1 (máxima desigualdad), como se puede observar a partir de las tablas 4 y 5 respectivamente:
De acuerdo con la distribución de los ingresos en esta tabla, se produce una situación de equidad en el sentido que la población de cada fila recibe similar ingreso al de cualquiera otra fila, o sea el 20%, y por lo tanto acumula de 20 en 20% (tercera columna). Aquí es G = 0. Por el contrario, la situación de mayor desigualdad se daría si el estrato de mayores recursos recibiera el total de los ingresos, tal como se ejemplifica en la tabla 5:
En este caso la cuarta columna de la tabla es casi la misma que la de ingresos original, sin acumular, por cuanto las primeras cuatro filas no aportan para dicha acumulación. Ahora G = 200/200 = 1. Quiere decirse que la variación total del índice desde la situación de equidad hasta la de mayor desigualdad es igual a 1, con 0 y 1 como los respectivos valores extremos. Por lo general la desigualdad social en los países oscila en valores intermedios como se verá más adelante.

En muchos países, incluido el nuestro las cifras oficiales de ingresos, p. ej. las suministradas por la Encuesta Permanente de Hogares (EPH), se dan por deciles, diez intervalos en lugar de quintiles, cinco intervalos, como se ha hecho en todas las tablas anteriores por razones de mayor claridad expositiva. Además en nuestro caso se dan con una cifra decimal como puede verse en el cuadro 26 de dicha encuesta: Población total según escala de ingreso individual. Es un ejercicio interesante comparar los datos de las olas de mayo de 1991 y mayo de 2002 de la referida encuesta para el Gran Buenos Aires, que incluyen todo el período de vigencia del modelo de convertibilidad (Tablas 6 y 7), Se realizaban por esa época dos olas por año, en los meses de mayo y octubre. Dado que a nivel país no existen los datos para todo el período, se tomaron los del GBA.
Ahora debe tenerse en cuenta que las sumas de la fórmula se extienden a los nueve primeros intervalos. Como consecuencia de los cambios operados en la distribución de ingresos en el período mayo de 1991 – mayo de 2002, el índice de Gini creció de 0.481 á 0.531.
Del libro Manuel Castells: “La era de la información”. Economía sociedad y cultura. Vol. III El fin del milenio, Siglo XXI, México.1999, se extraen los índices de otros países que permiten ubicar el sentido del incremento observado en el nuestro. Así en la página 150 se establece para los países industrializados G = 0.41 o menos, a excepción de los Estados Unidos (página 156) con G = 0.45 (1995), aunque en 1967 fue G = 0.40, según este autor la mayor contribución a este incremento pertenece al período 1983/92 (Reagan, Bush), otros valores volviendo a la página 150 son: 0.48 (Malasia), 0.50 (México), 0.61 (Brasil) y 0.65 (Sudáfrica).
Un caso de disminución radical de las desigualdades se dio en Taiwan entre 1953 y 1980, con la baja del índice de 0.56 á 0.30 (página 284). Esto se dio en el marco de un crecimiento medio anual del 8.7% para el período 1953/82, con una fuerte intervención estatal. Estos datos suministran adicionalmente otra información ya que con políticas conservadoras como las de Reagan y Bush en los EEUU y el Plan Cavallo en nuestro país G aumenta, y cuando se realizan políticas de crecimiento G disminuye, como en el caso de Taiwan. Si bien el número de casos registrado es pequeño, constituyen un fuerte indicio en contra que estos modelos conservadores tengan efectos no deseados reduciendo esta conocida disculpa a una mera coartada.

4/3/10

EL TEMIBLE EFECTO DE DISEÑO

Las muestras que usamos en estudios de mercado no son precisamente las muestras aleatorias simples a partir de las cuales obtenemos rápida y sencillamente promedios (que pueden ser porcentajes) o los márgenes de error con los que trabajamos. Ello equivaldría a sortear tantos puntos muestra como el tamaño que hayamos decidido para la misma, así el número de manzanas elegidas será igual al tamaño muestral y en cada una se elegirá un hogar y en cada uno una persona.
Imagínese el trajín que esto significa en cuánto a traslados de los entrevistadores y su mayor necesidad de tiempo, la consiguiente mengua de la cantidad de entrevistas diarias por encuestador y el resultante incremento de los costos del estudio. Para paliar estos inconvenientes desde siempre se ha recurrido al muestreo por conglomerados que consiste en agrupar a los entrevistados en puntos muestra cuya cantidad está en relación con el tamaño muestral, de modo que el encuestador pueda realizar las entrevistas de cada uno de ellos en a lo sumo una jornada.
Claro que todo esto no resulta gratis. En los puntos muestra generalmente ocurre que la distribución de la población en los mismos no es aleatoria: si la encuesta es sobre producto depende por ejemplo de la distribución física del mismo en los negocios de la zona; si es un estudio de opinión dependerá de las características laborales y socioeconómicas en la zona, etc. y existe entonces una homogeneización de la población que hace que aumente la varianza al diferenciarse más de la población de otros puntos muestra.
Ejemplo (no real): Una compañía de seguros desea conocer la cantidad de automovilistas en una ciudad y proyecta una investigación con tamaño muestral n=500 casos, distribuidos en m=50 puntos muestra de l=10 casos cada uno, obteniendo las siguientes cantidades (Yi) de dueños de automóvil por punto muestra:

Yi=3,6,3,5,6,9,4,5,3,5,7,0,6,1,5,8,0,4,8,2,0,2,6,8,6,0,0,6,6,5,0,1,5,6,7,9,44,8,7,6,7,3,0,4,5,0,7,8,7

El total de los poseedores de automóvil es la suma de estos valores (227), y el promedio de poseedores es para esta ciudad de 45,4% la varianza de esta última cifra es:
Var c = (1/pm)*(1/ ((pm-1)*T))*(ΣYi^2-(ΣYi)^2/pm) =18,9*10^-4,
donde var c es la varianza entre los conglomerados, pm la cantidad de puntos muestra, T el total de casos por punto muestra, Yi es la cantidad de dueños de automóvil en cada conglomerado, e Yi2 es el cuadrado de cada uno de ellos.
Si se hubieran elegido 500 puntos muestra la varianza sería, con nuestra conocida var = pq/(n-1) = 45,4*54,6/499 = 4,97*10^-4, o sea que el hecho de conglomerar la muestra hace que la varianza se incremente en una proporción dada por 18,9/4,97 = 3,80 que es la magnitud en que se incrementa la variación debido al efecto del diseño: efd=3,80, o lo que es lo mismo el error estándar se incrementa en 1,95 que es la raíz de 3,8. Cuando se calcula el error estándar como si hubiésemos sorteado la muestra al azar simple, estamos subestimando el error real. En este caso si se elige trabajar con un 95% de confianza (1,96ѕ), en realidad estaremos trabajando con (1,96/1,95)ѕ = 1,005ѕ, aproximadamente 68% de confianza. O lo que es lo mismo es como tener una muestra de sólo 500/3,8 =131 casos.
Naturalmente esto depende de cada estudio, si se buscaran automóviles de los últimos años, se sortearían determinadas zonas de la ciudad con mayor parecido y resultaría una menor variación entre los conglomerados y una disminución considerable del efd. También depende de las características del producto o servicio objeto de la investigación y de su masividad. Otra forma de disminuir el efd consiste en emplear otro tipo de estimadores que si bien son conocidos desde bastante tiempo no han sido empleados con la frecuencia que ameritan sus propiedades, pero esto es ya harina de otro costal.