27/7/10

USOS DEL COEFICIENTE DE GINI

Examinemos que ocurre si en lugar de trabajar con deciles la información de la EPH como en el caso de los datos de Mayo 1991 y octubre de 2002 (post anterior) se lo hace – para los mismos informes – con quintiles para lo que basta con tomar los renglones correspondientes al 20, 40, 60, 80, y 100% de la población en las tablas 6 y 7 del post anterior. El lector puede así comprobar que los nuevos coeficientes son algo mayores: 0.497 y 0.563 respectivamente aunque conservan la tendencia. 

Tanto con los quintiles como con los deciles se trata de agrupaciones de los datos, en intervalos del 10 ó 20% de la muestra respectivamente, pero se puede calcular el índice sin agrupar los mismos, y así como el índice de Gini es menor calculado en deciles que en quintiles, cuando no se agrupa y se ordena de menor a mayor cada uno de los n valores se está comparando con los n-1 valores restantes y el coeficiente resulta ser el menor de todos los posibles, sea cuál sea el valor de porcentaje que se empleare. Este es el valor que resulta del procesamiento de las mediciones de los centros estadísticos oficiales de los distintos países, que disponen de los datos relevados en campo y por lo tanto pueden ordenarlos.
Esto plantea una cuestión interesante ¿los análisis posibles a partir de los deciles – o cualquier otra agrupación de los datos - se compatibilizan con estos índices mínimos?

En el caso de los deciles, desde la iniciación de la EPH continúa en el 3er. trimestre del 2003 hasta el 1er trimestre del 2010, los datos obtenidos para el ingreso per cápita familiar (personas) fueron:
0,579-0,568-0,570-0,556-0,545-0,531-0,539-0,525-0,541-0,514-0,531-0,514-0,518-0,523-0,484-0,498- -0,512-0,504-0,488-0,509-0,487-0,494-0,497-0,496-0,483-0,485.

Los correspondientes suministrados por el INDEC fueron:
0,534-0,525-0,512-0,513-0,502-0,494-0,496-0,487-0,500-0,475-0,489-0,473-0,476-0,485-0,476-0,460- -0,472-0,463-0,450-0,469-0,450-0,454-0,460-0,457-0,446-0,447.

Los espacios en blanco corresponden a la medición del 3er. trimestre de 2007, no realizada por una huelga. La correlación entre ambas series de datos es 0,98 que resulta altamente significativa ya que el valor de la t de Student, que es la función aplicable en este caso, es 24,24 en tanto que el valor crítico de tablas es de 2,80 para un nivel de confianza del 99% y 24 grados de libertad (el nº. de datos menos 2). Si se observa que el orden de los datos no es el mismo en ambas series, nos tranquiliza saber que el coeficiente de correlación por rangos de Spearman, que es el aplicable cuando hay diferencias entre los ordenamientos, es 0,948 y el valor de t es ahora de 14,62 para la misma confianza y grados de libertad. Si consideramos que el valor máximo para una correlación es 1, los altos valores obtenidos, y su alta significación nos indican que a los efectos prácticos las tendencias observables para cada serie de datos (que por otra parte se obtienen de la misma base) son las mismas no influyendo ni siquiera el distinto orden de las mediciones trimestrales cuando se las ordena de mayor a menor por el índice de Gini. En consecuencia para los análisis como los que siguen es válido trabajar en base a los deciles.

Reconociendo el valor de las diferencias.
Para el análisis de los cambios que se dan en cualquier orden de las ciencias se hace necesario tener en cuenta el grado de las diferencias que se hayan encontrado para conocer si las mismas son de existencia real o simplemente se deben a errores de muestreo inducidos por lo general por un tamaño insuficiente de la muestra (suponiendo que se trata de estudios realizados bajo normas profesionales, lo que elimina otras fuentes de error). En el caso de la EPH, consideremos la base de 25000 hogares que tiene en cada trimestre, que además el cuadro 29 de la misma nos da un promedio de 3,24 personas por hogar y la encuesta de empleo y desempleo una población activa del 46%, a los efectos prácticos podemos estimar la muestra de personas ocupadas en unas 37200 personas. Esto viene a cuento para la comparación entre trimestres, particularmente con el de un año antes: las diferencias que se observaren entre ellos ¿serán significativas?, porque para su elucidación se debe usar una fórmula de Ji-cuadrado que incluye la mayor diferencia (D) entre las funciones acumuladas de la distribución de ingresos de los trimestres considerados y el tamaño de la muestra de respondentes con ingresos que es lo que hemos estimado en unas 37200 personas y que en dicha fórmula se incluye como una expresión igual a n/2. 

Nuestro criterio para el análisis estadístico es que cuando se supera el valor crítico de tablas del 90% de confianza existe una tendencia, cuando se supera el del 95%, hay una diferencia significativa, y cuando se supera el del 99% es altamente significativa. Si comparamos los deciles del 1er. trimestre de los años 2008, 2009 y 2010, las mayores diferencias observadas son:
Entre 2008 y 2009: 0,011 en el 9º decil Ji-cuadrado = 9,00

Entre 2009 y 2010: 0,008 en los deciles 4, 5, y 6 Ji-cuadrado = 4,76

Entre 2008 y 2010: 0,014 en el decil Ji-cuadrado = 14,58

En el primer caso el valor de Ji-cuadrado supera al de tablas (5,99) para el nivel de confianza del 95% por lo que la diferencia es significativa y hasta el decil 9 se observa una mejora de la distribución de los ingresos de la población a costa del decil 10.

En el segundo caso el valor es superior al de tablas (4,60) para el nivel del 90% y hay una tendencia hacia la mejora de la distribución sobre todo hasta el decil 4.

Por último juntando los dos años el valor supera al de tablas para un nivel del 99% (9,21). En este caso la mejora es hasta el decil 6.

Otra forma de considerar los cambios, esta vez teniendo en cuenta la evolución de los índices de Gini, es decir viendo toda la película (todos los trimestres desde que se pasó a la EPH continua, 3er trimestre de 2003) en lugar de las fotos (determinados trimestres) como recién lo hemos hecho con las distribuciones por deciles, es mediante el análisis de la correlación de ellos con el transcurso del tiempo:
La correlación entre ambas series (tabla 1) es r = -0,942, que es alta y negativa y quiere decir que el índice baja cuando pasa el tiempo y esta baja es altamente significativa por cuanto el valor absoluto de la distribución t de Student es 14,3

No hay comentarios: