3.4 Diferencias estadísticamente significativas


El 8 de mayo del 2019 la versión online de diario regional El Día de la región de Coquimbo publicó una noticia con el siguiente titular «Encuesta Nacional Urbana de Seguridad Ciudadana. Cae la victimización y la percepción de inseguridad en la Región de Coquimbo«. Más adelante, en el cuerpo del reportaje, se menciona lo siguiente:

¿Qué significa que una variación o diferencia sea estadísticamente significativa? Si le preguntamos a cualquier persona, probablemente esta nos responderá «¡claro que 23,4% es diferente de 18,9%!»

Debemos tener en cuenta que estos resultados provienen de encuestas que no son aplicadas a toda la población, es decir, que se aplican a una muestra o subconjunto de ella y por ende los resultados tienen asociado un margen de error. Esto significa, por un lado que lo que se obtiene es una estimación del índice de victimización y por otro, que si la victimización es del 23,4% podría haber sido, por ejemplo, 24% o 23%.

Solo se puede conocer el valor “real” -que en estadística se conoce como el parámetro- del índice de victimización, si se hubiese hecho la encuesta a toda la población.

Cuando intento explicar a mis alumnos esta materia les doy el siguiente ejemplo:

En este caso la diferencia entre la medición del 2018 y 2017 es 4,5% y es considerada estadísticamente significativa. Sin invertimos la pregunta, es decir, nos preguntamos cuándo la diferencia no es estadísticamente significativa, tenderíamos a responder que la diferencia no es estadísticamente significativa cuando esta se aproxima a 0… pero, ¿qué tanto?

En estadística existen un par de metodologías para detectar diferencias estadísticamente significativas entre dos estimaciones. En esta sección nos enfocaremos en los intervalos de confianza para la diferencia de proporciones (porcentajes) o medias según sea el caso. En esta oportunidad abordaremos el concepto de Intervalo de Confianza para la Diferencia de Proporciones o Intervalo de Confianza para la Diferencia de Medias.

Antes de hablar acerca del intervalo de confianza debemos entender lo que en estadística se conoce como parámetro.

Un parámetro es cualquier medida resumen de la población. La media, varianza y proporción, son los parámetros más usuales. Estos se calculan considerando los datos de toda la población. De lo contrario lo que se obtiene son estimaciones de los parámetros poblacionales. Cuando comparamos dos poblaciones ya sea a través de proporciones o medias, los parámetros ahora son la diferencia de las proporciones o la diferencia de las medias.

Un intervalo de confianza es, como su nombre lo indica, un intervalo o rango de valores entre los cuales puede oscilar el valor de un parámetro. Un intervalo de confianza para la diferencia de proporciones será un intervalo o rango de valores entre los que oscila el valor de la diferencia de proporciones con un cierto nivel de confianza o seguridad que usualmente se toma como 95%.

En otras palabras un intervalo de confianza nos da un rango de valores plausibles para el parámetro. Si el intervalo de confianza para la diferencia de proporciones contiene al 0, podremos decir que 0 es un valor plausible para esta diferencia y por lo tanto esta diferencia NO es estadísticamente significativa. Por otro lado, si este intervalo NO contiene al 0, podremos afirma que con un 95% de confianza la diferencia entre ambas proporciones es estadísticamente significativa.

La fórmula para el intervalo de confianza para la diferencia de proporciones con un 95% de confianza esta dada por:

Si consideremos que el número de casos encuestados el 2018 fue de 1.588 y el 2017 fue de 1.744 (Fuente: INE) ) se obtiene que el intervalo de confianza del 95% para la diferencia del índice de victimización entre 2018 y 2017 esta dado, aproximadamente por:

Si en vez de hablar de proporciones o porcentajes hablamos de medias o promedios, ¿cómo podemos saber si la diferencia entre dos medias es estadísticamente significativa? Consideremos la nota publicada el 25 de junio de 2018 titulada así:

“INE: Gasto promedio de los hogares de las principales ciudades de Chile supera el millón de pesos”

En el cuerpo del artículo se menciona lo siguiente:

Aquí se habla de que existen diferencias entre el gasto promedio mensual según el nivel educacional del sustentador principal, pero no menciona si estas son estadísticamente significativas.

Veamos el caso particular de la comparación de aquellos hogares donde el nivel educacional del sustentador principal llegó hasta primaria y de aquellos en que el sustentador principal llegó hasta enseñanza básica.

Usando la base de datos de la Encuesta de Presupuestos Familiares (EPF) que se encuentra en el siguiente link del Instituto Nacional de Estadísticas se obtiene lo siguiente:

Reemplazando se obtiene que con un 95% de confianza, la diferencia entre el gasto medio de los hogares donde el nivel educacional del sustentador principal llegó hasta educación básica y el gasto medio de los hogares donde el nivel educacional llegó hasta primaria, esta entre $117.922 y $123.390. Dado que el 0 no se encuentre en este intervalo, podemos concluir entonces que existe una diferencia estadísticamente significativa entre el gasto promedio de ambos grupos.

(*) Dada la metodología del ENUSC la fórmula del cálculo del intervalo de confianza para la diferencia de proporciones es más compleja que lo que se presenta en el texto. La fórmula aquí presentada es la que se usa en cursos básicos de inferencia estadística.  
(**) Cuando las varianzas se desconocen, pueden darse dos casos, se asumen iguales o se asumen distintas. Por simplicidad para el lector aquí solo se aborda la situación donde se asumen varianzas distintas.

(***) Cifras calculadas utilizando el factor de expansión calculado por el INE para este estudio.
Anuncio publicitario