3. ¿Por qué importa la estadística?

Carlos Franco

Creer que las herramientas gratuitas que ofrece la web para el tratamiento de datos (formularios de encuestas, ingeniería inversa, descarga, estructura y visualización) es lo único que se necesita para dedicarse al data-reporteo, es condenarse al fracaso y arrastrar a otros en el camino. En lo personal, considero que es tan nefasto como decir “lo único que se necesita para ser periodista es un teléfono móvil, porque hoy cualquiera con un celular es un reportero ciudadano”.

El prosumidor, ese personaje que debe su nombre a su condición de productor consumidor de contenidos, que los medios han bautizado en forma coloquial -reduccionista y vergonzosa- con nombres como “cazanoticias” y “reportero ciudadano”, se ha convertido en motor de los cambios que ha vivido la industria de la comunicación más allá de la prensa. No tengo dudas de que su irrupción en muchos sentidos podría ser considerada un aporte, cuyo alcance daría para un libro aparte (hay varios, de hecho); sin embargo, dicho personaje no tiene un rol social que ponga sobre sus hombros una responsabilidad o le exija ciertos estándares respecto de los contenidos que genera, a menos que incurra en un delito, claro. El periodista sí tiene un rol social y una responsabilidad asociada, lo cual hace una enorme diferencia.

Dicha responsabilidad no se extingue al pasar del reporteo tradicional al periodismo de datos, solo se transforma. Así como el periodista internacional debe hablar inglés para entrevistar a una fuente extranjera, el data-reportero debe conocer el idioma de los datos si quiere interrogarlos y entender correctamente lo que éstos quieren decir, para ofrecer al público los datos valiosos ocultos en un cúmulo infoxicante (intoxicación por exceso de información). Ese idioma se llama estadística. Conocerlo evita convertirse en un prosumidor de datos desprolijo que vaya generando basura informativa a medida que avanza.

Pensemos en las encuestas. Existe una amplia oferta de plataformas gratuitas para crearlas y distribuirlas, como también hay aplicaciones que a partir del total de una población indican cuál es el número de individuos que debiese tener una muestra razonable. Sin embargo, el criterio estadístico hace la diferencia para quien sabe que una muestra confiable no solo depende del número de individuos, sino de los criterios y método de selección de éstos. Lo mismo con el diseño de la encuesta: no se trata de armar una lista de preguntas solamente. Cada pregunta y sus respectivas opciones de respuesta estructuran los datos de una determinada manera y esa estructura limita (para bien o para mal) nuestros análisis e inferencias posteriores. Veámoslo con un ejemplo básico:

Si queremos saber el nivel de aprobación de la gestión del actual presidente, una pregunta abierta del tipo ¿Qué opina del presidente? es una pésima idea. Lo es porque la persona y la gestión son dos objetos distintos. Si busco saber qué opina un grupo de personas sobre lo segundo, ¿por qué apunto en mi pregunta a lo primero? Otro problema es que en las preguntas abiertas cada respuesta es per se, una expresión singular; entonces, crear una estructura ex post agrupando esos comentarios en categorías del tipo “a favor” y “en contra” para inferir de cada respuesta una “aprobación” o “rechazo” sería ir muy lejos y poner en la boca de los encuestados cosas que nunca dijeron.

Las preguntas con alternativas configuran estructuras de datos ex ante, que podemos visualizar en nuestra cabeza para proyectar qué tan rico o limitado podrá ser nuestro análisis una vez recopilados todos los datos. Por ejemplo,

Si pregunto:

Usted ¿aprueba o rechaza la gestión del presidente?

  • Apruebo
  • Rechazo
  • No tengo claridad

Debo ser consciente de que estoy generando la siguiente estructura

Esta estructura delimitará mis posibilidades de hacer tablas dinámicas y filtros, que suelen ser las primeras acciones de análisis en periodismo de datos.

Los gráficos también pueden convertirse en un problema y desinformar si desconozco criterios fundamentales. La pregunta ¿Qué puede comunicar este tipo de gráfico? es un buen punto de partida para decidir usarlo u optar por otro, dependiendo de los datos que quiera entregar.

¿Puede un gráfico de torta mostrar la evolución de un fenómeno en el tiempo? No, para eso lo más indicado es un diagrama lineal de serie de tiempo.

Otras veces, el gráfico es el indicado, pero la administración de los datos es incorrecta y distorsiona todo, como el ejemplo que presento a continuación. Los periodistas querían visualizar inmigración en Chile según país de origen. Eligieron un gráfico circular para mostrar porcentajes, pero cometieron un error grave. Al ver que eran tantas naciones y eso podía generar un gráfico sobrecargado de información, decidieron dividir en grupos y hacer una torta para cada uno. Es decir, generaron varios enteros o cientos. El resultado: un total de 300 por ciento, donde aparecen datos tan incorrectos como que la inmigración proveniente de Argentina es superior a la de Perú y Venezuela, con un 33,8% versus un 23.7% y un 30,5% de respectivamente.

Actúa como periodista: desconfía de los datos

Jacob Harris dice “desconfía de tus datos”, al analizar un artículo de BuzzFeed sobre consumo de porno en Estados Unidos, como ejemplo de lo que no se debe hacer. Los investigadores a cargo fueron demasiado lejos con sus inferencias y establecieron sin empacho una relación entre preferencia política y el consumo de pornografía cayendo en aberraciones estadísticas serias, como explico a continuación.

Los periodistas usaron bases de datos sobre consumo de porno en cada uno de los 50 estados, correspondientes al sitio PornHub -el tercero en pornografía online-. Esa información la cruzaron con el resultado de la elección presidencial de 2012. Etiquetaron como demócratas los estados donde ganó Barack Obama y como republicanos, aquellos en que triunfó Mitt Romney.

Así explica Harris el procedimiento:

Extrayeron direcciones IP de los registros de tráfico de su sitio web, geocodificando sus ubicaciones probables y derivando una cifra de tráfico total para cada estado. Luego, dividieron el total de impactos de cada estado por la población de ese estado para obtener un número de hits per cápita. Como resultado, concluyeron que estados azules promediaron un poco más de impactos per cápita que los estados rojos.

Sostiene que este caso evidencia seis tipos de error estadístico:

  • Poxies débiles
  • Dicotomización
  • Falacia ecológica
  • Problemas de geocodificación
  • Ingenuidad de los datos
  • No entender que correlación no es igual causalidad

Los datos de IP son una cosa, pero saber si esos usuarios son demócratas o republicanos es otra.

¿Es PornHub la única fuente de porno disponible? ¿Qué pasa con quienes prefieren consumirlo a través de televisión de pago?

PornHub es el tercer sitio con más tráfico ¿Qué ocurre con las personas que consumen en los otros dos sitios que están primero y no fueron considerados en el análisis?

Dicotomización

Harris lo explica así:

Para su análisis, Pornhub clasificó los estados en rojo y azul. Esto parece tener sentido, pero han aplanado una variable continua (el porcentaje de la población del estado que votó por Obama) en una condición binaria (Romney gana / Obama gana). Es probable que esta dicotomización tenga un efecto palpable, ya que hace que un estado de batalla como Virginia parezca más cercano a un incondicional demócrata como Vermont que su vecino ideológico de “estado rojo” en el sur.

En otras palabras, ¿se puede decir que Virginia es demócrata? Consideremos que en las elecciones de 1992, 1996, 2000 y 2004 ganaron candidatos republicanos a la presidencia.

Falacia ecológica

Revisemos primero la definición, a partir del concepto inferencia ecológica

Javier Balsa, de la Universidad de Chile, lo explica así:

En las Ciencias Sociales, muchas veces nos encontramos con el problema de no contar con los datos de las unidades de análisis que nos interesa analizar, sino tan sólo con la información agregada de las características que presentan los agrupamientos geográficos de tales unidades. En estos casos, no se cuenta con el cruce de las variables de interés, y sólo se tienen las distribuciones de cada una de las variables (los marginales de las tablas de contingencia) para las diferentes zonas (…)
Si el objetivo de la investigación es de tipo descriptivo, habitualmente alcanza con esta información agregada, pues nos permite conocer las distribuciones univariadas. Sin embargo, si lo que interesa es analizar las relaciones entre dos o más variables (por ejemplo, entre los distintos sectores sociales y las conductas electorales) deberemos introducirnos en el problema de la inferencia ecológica: tratar de derivar las conductas individuales a partir de los datos agrupados.

En el caso particular que estamos analizando, puede que los demócratas efectivamente consuman más porno en los estados pintados de azul (aquellos donde ganó Obama y por sistema electoral se les nomina demócratas), pero también podría ocurrir que en esos estados sean los republicanos quienes disparan el consumo de pornografía.

Harris agrega:

Simplemente no tenemos suficiente información sobre la población individual para hablar. Y definitivamente no tenemos ninguna información sobre personas específicas en base a estas estadísticas generales. Saber que su vecino es republicano o demócrata no le dice nada sobre su consumo de pornografía, independientemente de los promedios que obtuvieron para cada población.

Geocodificación

Para localizar a los consumidores de porno, Pornhub usó los datos de geocodificación de IP, ignorando que muchas veces son de pésima calidad. En Estados Unidos, por ejemplo, cuando no se logra establecer con precisión a qué estado corresponde la IP, queda registrado en la mitad del territorio; es decir, Kansas.

Es un error muy frecuente que las bases de datos de las empresas proveedoras de internet localicen mal las IP de sus usuarios. Alguien navega conectado desde una ciudad y el sistema lo registra en otra. Este problema tira por la borda muchos estudios del tipo “dime donde vives y te diré qué buscas en la web”. En el caso particular, Kansas tenía una ridícula sobrepoblación de IPs, ¿por qué? por defecto el sistema localizaba en dicho estado a todos aquellos usuarios cuyo origen desconocía.

En Chile, es común que esto suceda con organizaciones que tienen presencia en varias ciudades y un mismo proveedor de internet. Te conectas en la sucursal de Valparaíso y el sistema te registra en Santiago.

En los siguientes capítulos Florencia Darrigrandi explica nociones fundamentales de estadística para periodistas