Scraping

Es entrar en la arquitectura de un sitio web para extraer datos en forma automatizada y recibirlos con una estructura ordenada que haga factible el análisis.

La traducción del inglés es «raspado» y es literalmente lo que uno hace, porque no se trata de robar la información y quitarla del sitio donde está alojada, sino de extraer una copia. El clásico copy / paste de un texto en formato PDF sirve de ejemplo sencillo para entender lo que hace un scraping más sofisticado. Copio los datos de una fuente en formato estático y lo llevo a uno editable (word excel, etc.) para generar un contenido nuevo

En 2015, para la publicación del libro Números que hacen noticia, conversamos con Alex Neuman Van Der Hans, quien puso el acento en cuestiones reñidas con la ética.

Habló derechamente de espionaje industrial

“El scraping automatizado no es ético, punto. Es robo industrializado de contenido. El scraping manual generalmente se da por una combinación de pereza, ignorancia y desidia. Alguien se le ocurre «voy a poner un sitio web porque si Fulano y Mengano están haciendo dinero con eso, yo también puedo». Lo cierto es que no puede, así que copia y pega contenido ajeno (…) Hay en Panamá muchos que hacen también scraping disimulado, copiando artículos en inglés y traduciéndolos (a veces usando Google Translate, y se nota) o copiando artículos en español y traduciéndolos al inglés para otra audiencia”

Lamentablemete, lo que describe el consultor panameño sigue ocurriendo debido al escaso control que se puede ejercer sobre los contenidos en internet. Es fácil que un sitio web cuyos servidores están en “tierra de nadie” se nutra íntegramente de contenidos de otros sitios que hacen el trabajo duro, sin pagar un peso por ello. Es robo por donde se le mire.

Sin embargo, el scraping que promueve el periodismo de datos, aunque técnicamente funciona parecido, su motivación es muy distinta y el contenido que ofrece es resultado de trabajo duro con sello de autor.

¿Por qué el scraping en el periodismo de datos?

La gran cantidad de datos que se genera minuto a minuto en diversas áreas de interés público (ergo, periodístico) hace imposible que todos los procesos de extracción de datos sean manuales. Incluso si, en el mejor de los mundos, tuviéramos un ejército de gente trabajando en nuestro equipo.

Un ejemplo para dimensionar esto es la información contenida en los sitios del poder legislativo chileno: La cámara de diputados y el senado. Si queremos evaluar a los parlamentarios a partir de su trabajo tenemos mucha información disponible. Sus intervenciones en las comisiones que integran, servirían para analizar, por ejemplo, qué tan activos son para discutir las materias que les competen, cuánto saben sobre esas materias y cuánto aportan a través de sus dichos. Incluso podríamos comparar lo que si son coherentes con lo que dicen en las comisiones, lo que votan en sala y lo que dicen a través de la prensa.

Suena muy interesante y seguro que los resultados traerían titulares que generarían discusión en los medios un par de semana, al menos. Pero ¿Cuánto tardaríamos si tuviésemos que extraer la información en forma manual? Si solo lo hiciéramos con los diputados, tendríamos que multiplicar 155 integrantes que participan en 3 ó 4 comisiones permanentes cada uno (de un total de 12). Consideremos un solo ejemplo para seguir con el cálculo mental: entre el 1 de enero y 12 de junio de 2019 la comisión de educación y cultura registra 49 sesiones. En cada una, horas de discusión que se convierten en miles de caracteres.

Navegar página por página, copiando y pegando con el mouse del computador, para tabular, sería ridículo. Ningún medio se puede dar el lujo de tener a todo su equipo en una tarea de este tipo dejando de publicar otras cosas, como si el tiempo se hubiese detenido.

Automatizar el trabajo permitiría conocer la estructura del sitio para dar con los atajos que nos lleven a la información a través del camino más corto, extrayendo lo que necesitamos y que esa información nos sea entregada con una estructura de datos.

WordPress.com.