2. Conceptos fundamentales: wobbing, scraping, crowdsourcing

Carlos Franco

WOBBING: LEY DE TRANSPARENCIA

Es la obtención de datos a través de la ley de transparencia (en Chile, ley 20.285). recibe el nombre de wobbing, como neologismo de la legislación holandesa cuya sigla es WOB.

En Chile, hablamos de transparencia activa y pasiva

La transparencia activa obliga a organismos e instituciones públicas a mantener en sus portales información actualizada sobre:

  • Personal: remuneraciones de personal de planta, contrata, honorario
  • Contrataciones de suministros, prestaciones de servicios, contrataciones de estudios, asesorías y consultorías.
  • Historial de transferencias de fondos públicos.
  • Actos y resoluciones que tengan efectos sobre
  • terceros.
  • Detalles sobre programas de subsidios y otros beneficios que
  • entregue el organismo.
  • lista de beneficiarios de programas sociales.
  • Auditorías.
  • Presupuestos
  • Fiscalizaciones, entre otras

¿Quiénes están obligados a cumplir?
Los organismos que deben responder solicitudes de información, tienen que publicar su información en sus sitios web (la llamada transparencia activa) y son fiscalizados por el Consejo para la Transparencia son: ministerios, intendencias, gobernaciones, gobiernos regionales, municipalidades, Fuerzas Armadas y las Fuerzas de Orden y Seguridad Pública, universidades estatales y servicios públicos de salud. 

¿Cuáles son las instituciones con régimen especial?

Las instituciones que tienen un régimen especial para la entrega de información son: Ministerio Público, la Contraloría General de la República, el Banco Central, Tribunal Constitucional y Justicia Electoral.

¿Cuáles son los organismos obligadas solo a transparencia activa?

El Congreso Nacional, tribunales que forman parte del poder judicial,
empresas públicas y tribunales especiales.

Cuando la información no está publicada por transparencia activa ¿Cómo se solicita?

Hay tres vías:

  • Formulario en papel
  • Carta: es modo más engorroso)
  • A través de internet: es la vía más rápida y directa. Se accede desde el sitio del organismo requerido, a través del banner sistema de gestión de solicitudes de acceso.

Plazos

Si el organismo que recibió la solicitud no es el competente para la información que estás solicitando, es éste el encargado de enviar la solicitud a la entidad que corresponda, internamente.

Cuando llega al organismo competente, hay un plazo máximo de veinte días hábilespara responder a un requerimiento.

La ley otorga además una extensión de diez días hábiles adicionales de respuesta en los casos que sea muy difícil reunir la información solicitada. Quien pide la información debe recibir un aviso de la prórroga.

¿Pueden negarme la información requerida?

El organismo puede negar la información siempre que exista una razón fundada. Se debe especificar por escrito la causal legal invocada notificando al solicitante en soporte papel o medio electrónico.
Cuando la información afecta a terceros involucrados podría ser rechazada la solicitud. Si la información pudiera afectar los derechos de terceros, estos deben ser notificados en un plazo de dos días hábiles. Podrían oponerse a la entrega de los documentos o antecedentes solicitados.

¿Cómo interponer un reclamo ante el Consejo para la Transparencia?
Se puede recurrir al Consejo para la Transparencia en los siguientes casos:

  • Si la petición fue rechazada
  • Si venció el plazo previsto para la entrega de la documentación requerida sin que esta fuera entregada
  • Si la información entregada no corresponde a lo solicitado o está incompleta.

El solicitante tiene quince días hábiles (desde la notificación de la respuesta en adelante) para presentar el reclamo.

SCRAPING

Es entrar en la arquitectura de un sitio web para extraer datos en forma automatizada y recibirlos con una estructura ordenada que haga factible el análisis.

La traducción del inglés es «raspado» y es literalmente lo que uno hace, porque no se trata de robar la información y quitarla del sitio donde está alojada, sino de extraer una copia. El clásico copy / paste de un texto en formato PDF sirve de ejemplo sencillo para entender lo que hace un scraping más sofisticado. Copio los datos de una fuente en formato estático y lo llevo a uno editable (word excel, etc.) para generar un contenido nuevo

En 2015, para la publicación del libro Números que hacen noticia, conversamos con Alex Neuman Van Der Hans, quien puso el acento en cuestiones reñidas con la ética.

Habló derechamente de espionaje industrial

“El scraping automatizado no es ético, punto. Es robo industrializado de contenido. El scraping manual generalmente se da por una combinación de pereza, ignorancia y desidia. Alguien se le ocurre «voy a poner un sitio web porque si Fulano y Mengano están haciendo dinero con eso, yo también puedo». Lo cierto es que no puede, así que copia y pega contenido ajeno (…) Hay en Panamá muchos que hacen también scraping disimulado, copiando artículos en inglés y traduciéndolos (a veces usando Google Translate, y se nota) o copiando artículos en español y traduciéndolos al inglés para otra audiencia”

Lamentablemete, lo que describe el consultor panameño sigue ocurriendo debido al escaso control que se puede ejercer sobre los contenidos en internet. Es fácil que un sitio web cuyos servidores están en “tierra de nadie” se nutra íntegramente de contenidos de otros sitios que hacen el trabajo duro, sin pagar un peso por ello. Es robo por donde se le mire.

Sin embargo, el scraping que promueve el periodismo de datos, aunque técnicamente funciona parecido, su motivación es muy distinta y el contenido que ofrece es resultado de trabajo duro con sello de autor.

¿Por qué el scraping en el periodismo de datos?

La gran cantidad de datos que se genera minuto a minuto en diversas áreas de interés público (ergo, periodístico) hace imposible que todos los procesos de extracción de datos sean manuales. Incluso si, en el mejor de los mundos, tuviéramos un ejército de gente trabajando en nuestro equipo.

Un ejemplo para dimensionar esto es la información contenida en los sitios del poder legislativo chileno: La cámara de diputados y el senado. Si queremos evaluar a los parlamentarios a partir de su trabajo tenemos mucha información disponible. Sus intervenciones en las comisiones que integran, servirían para analizar, por ejemplo, qué tan activos son para discutir las materias que les competen, cuánto saben sobre esas materias y cuánto aportan a través de sus dichos. Incluso podríamos comparar lo que si son coherentes con lo que dicen en las comisiones, lo que votan en sala y lo que dicen a través de la prensa.

Suena muy interesante y seguro que los resultados traerían titulares que generarían discusión en los medios un par de semana, al menos. Pero ¿Cuánto tardaríamos si tuviésemos que extraer la información en forma manual? Si solo lo hiciéramos con los diputados, tendríamos que multiplicar 155 integrantes que participan en 3 ó 4 comisiones permanentes cada uno (de un total de 12). Consideremos un solo ejemplo para seguir con el cálculo mental: entre el 1 de enero y 12 de junio de 2019 la comisión de educación y cultura registra 49 sesiones. En cada una, horas de discusión que se convierten en miles de caracteres.

Navegar página por página, copiando y pegando con el mouse del computador, para tabular, sería ridículo. Ningún medio se puede dar el lujo de tener a todo su equipo en una tarea de este tipo dejando de publicar otras cosas, como si el tiempo se hubiese detenido.

Automatizar el trabajo permitiría conocer la estructura del sitio para dar con los atajos que nos lleven a la información a través del camino más corto, extrayendo lo que necesitamos y que esa información nos sea entregada con una estructura de datos.

CROWDSOURCING

Es la obtención de datos a través de la colaboración abierta de personas. En Números que hacen Noticia explicábamos la experiencia de crowdsourcing que puso en práctica Datablog, con una investigación sobre gastos parlamentarios en el Reino Unido, en la que trabajaron unos veinte mil lectores.

Marianne Bouchart y Simon Rogers de The Guardian describieron así la experiencia, para el Data Journalism Handbook (2012):

«Uno recibe una tonelada de archivos, estadísticas o informes que es imposible que una persona pueda analizar. También puede conseguir material que es inaccesible o está en un mal formato y no puede hacer demasiado. Es en esto que puede ayudar el crowdsourcing. Una cosa que tiene The Guardian es muchos lectores, muchos pares de ojos. Si hay un proyecto interesante en el que necesitamos su ayuda, entonces se lo pedimos. Es lo que hicimos con los gastos de los parlamentarios. Teníamos 450.000 documentos y poco tiempo para hacer algo. Entonces ¿qué cosa mejor que repartir la tarea entre los lectores? 
El proyecto de los gastos de los parlamentarios generó muchas pistas. Tuvimos más historias que datos. En términos de tráfico fue muy exitoso. A la gente realmente le gustó»

El caso mencionado es del tipo Crowdwork. Se llama así cuando el trabajo de análisis es colectivo. La idea es entregar directrices claras para que la multitud siga el mismo estándar. Por eso, generalmente se trabajar con formularios predeterminados. Hay otros dos tipos que son:

Crowd-data: para recopilar datos a través de encuestas y otros muestreos masivos.

Crowdwisdom: Cuando se necesita resolver un problema puntual y se asume que varias cabezas podrían, juntas, llegar a la solución.

Integremos algunos conceptos revisados

A continuación, presento un artículo de periodismo de datos realizado con los métodos de wobbing y crowdsourcing. 

Foco: Mucho se comenta en la prensa acerca de la baja participación de mujeres en directorios en Chile. Como ejercicio de precisión, para aportar números concretos al debate, estudiantes de quinto año de periodismo de la Universidad Adolfo Ibáñez analizaron, en marzo de 2019, información de las 28 empresas públicas vigentes según el registro de la Dirección de Presupuestos (dipres.cl)

El wobbing, en este caso, corresponde a transparencia activa pues la composición de los directorios de cada empresa analizada son publicados en los sitios web de las mismas.

Los estudiantes no tenían entrenamiento en técnicas de scraping, por lo tanto se descartó como opción. Además, el raspado hubiese tenido complicaciones ya que en algunas páginas la información de los directorios estaba en formato no editable: PDF e incluso JPG.

Se decidió recolectar en forma manual. Habiendo muchas manos y cabezas pensantes (24 reporteros) optamos por un crowdsourcing. Los datos fueron estandarizados y tabulados a partir de los siguientes tópicos:

  • Nombre de empresa
  • Nombre director(a)
  • Sexo
  • Rol (presidente o presidenta).

Las preguntas periodísticas que dirigieron el trabajo:

  • ¿Cuántos puestos de director existen en empresas públicas chilenas?
  • ¿Cuántos hombres ocupan esos puestos?
  • ¿Cuántas mujeres ocupan esos puestos?
  • ¿Cuántos directorios de empresas públicas son presididos por hombres y cuántos por mujeres?
  • ¿Quiénes son las directoras que presiden?
  • Cuáles empresas tienen mayor y menor participación de mujeres en sus directorios?

Las preguntas se contestaron mediante filtros y tablas dinámicas en Excel. Los hallazgos se presentaron de dos formas.

A través de un artículo que puedes revisar clickeando:

La segunda visualización es un mapa de nodos, que además de atractivo sirve para demostrar lo eficiente que resulta un crowdsourcing.

Los estudiantes se agruparon en 6 equipos de 4 personas y se repartieron las 28 empresas y sus directorios en forma equitativa.

Cada estudiante buscó información pública de un determinado número de directores hasta completar el total de 162 (al restar la duplicidad de directores que tienen participación en más de una empresa pública).

En 1 hora y 15 minutos, conseguimos una visualización interactiva que permite al usuario clickear un nodo y obtener información específica sobre los directores y directoras de las empresas en cuestión.

Puede resultar abrumador ver la red a pantalla completa, pero eso también sirve para ilustrar la gran cantidad de directores hombres versus las mujeres.

Haz click en la imagen para revisar el mapa:

Nodos Empresas públicas

WordPress.com.