La importancia de la minería de datos en los trabajos periodísticos

Fuente: Wikipedia

Fuente: Wikipedia

La minería de datos es el conjunto de técnicas encaminadas hacia la finalidad de automatizar, en la medida de lo posible, el proceso de reconocimiento, extracción, estructuración de unos datos que se puedan presentar y distribuir en un formato organizado. En este post voy a hablar de su gran importancia en el denominado periodismo de datos, mediante ejemplos y detallando cómo se han realizado esos trabajos y qué técnicas han podido utilizar.

Visionando diferentes reportajes periodísticos de datos, se comprueba que estos explican la metodología que han aplicado. En el blog ‘Diario de un hacker cívico’ se proponen dos características para validar este tipo de periodismo: decir los datos fuentes y definir el proceso o metodología.

Estos dos aspectos se ven reflejados en el reportaje de Civio, ‘Sociedad médica y patrocinada’, que habla sobra donaciones, viajes, etc., que reciben los médicos y asociaciones de medicina de la industria farmacéutica. Al explicar la fórmula de trabajo, los autores comentan que han descargado los ficheros de 151 farmacéuticas, aunque también especifican que solo han tratado los datos de las personas jurídicas, ya que los de los profesionales sanitarios están afectados por la protección de datos.

Asimismo, señalan que en algunos casos han conseguido los datos realizando scraping y en otros no les ha quedado más remedio que la extracción manual, debido a la mala calidad de los datos. Esto corrobora la gran importancia de la minería de datos para poder ofrecer esta información. Incluso desde el artículo existe la posibilidad de descargar los datos que han utilizado en CSV para que cualquiera los pueda manejar.

Inferencia

Para tratar de inferir cómo han conseguido esas cifras, he navegado por las webs de diferentes farmacéuticas para comprobar cómo publican esos datos. Antes de realizar ese paso, hubiera pedido los datos en formatos acordes para su tratamiento como xls  o similares, e incluso en pdf, pero ante la imposibilidad de obtenerlos por esta vía, me hubiera lanzado a sus sites para realizar el scraping.

Un ejemplo es el caso de la farmacéutica Janssen-Cilag que ofrece la información en su web ordenada, pero tiene el problema que no deja descargarlo de ninguna forma, solo se puede ver en HTML. Para combatir esto, lo que haría es convertir ese HTML en PDF y adjuntar los PDF que me interesen con el programa Kami. Posteriormente, verificaría si es un PDF nativo o un PDF de imagen. En el primer caso, usaría Tabula para obtener los datos en un formato más amigable, luego limpiaría los datos obtenidos en Excel para su posterior utilización, y en el segundo optaría por Online OCR.

Esto sería realizarlo de una manera bastante manual. Imagino que la gente de Civio habrá utilizado la programación u otras herramientas para poder acceder a esos datos.

Como bien explica el periodista de El Confidencial, Daniele Grasso , algunas herramientas que se pueden utilizar para estos casos son Table Capture, que según sus palabras “basta con aplicarlo a una tabla HTML -de estilo de las que se utilizan en Wikipedia– para llevarse al portapapeles los datos de la misma”; Web Scraper, que permite seleccionar de manera visual los elementos de la página y exportarlos en CSV, y para gente con conocimientos en programación existe el lenguaje Python.

Otros ejemplos

Otros ejemplos de periodismo de datos que he encontrado son: el ‘Mapa municipal de resultados del 21-D en Cataluña’, publicado por El Mundo y ‘Factores sociodemográficos que influyeron en las elecciones generales del 20-D y 26-J’ de El Confidencial. A raíz de este último artículo, el periodista Adrián Blanco realizó un post comentando cómo se había hecho esa información y en él afirma que el equipo construyó “un algoritmo en el software estadístico R” para tratar los datos.

Webgrafía: Civio, 2017. Sociedad Médica y patrocinada. Recuperado de  https://civio.es/medicamentalia/2017/11/30/sociedad-medica-y-patrocinada/

Diario de un Hacker Civico, 2016. Veracidad distribuida (o cómo validar el periodismo de datos). Recuperado de https://diario.pr3ssh.net/veracidad-distribuida-o-c%C3%B3mo-validar-el-periodismo-de-datos-164c9eddf309

Datos de Janssen-Cilag sobre donaciones a diferentes asociaciones, 2016. Recuperado de http://public.janssentransferofvalue.com/es_es/hco-individual/2016

Grasso, Daniele, 2016. Cuatro formas de hacer Web Scraping desde y para la redacción. Recuperado de https://lab.elconfidencial.com/cuatro-formas-hacer-web-scraping-desde-y-para-la-redacci%C3%B3n-1d65762f048a

Pablo Medina y El Mundo Data, 2017. Mapa municipal de los resultados del 21-d en Cataluña. Recuperado de http://www.elmundo.es/grafico/cataluna/2017/12/21/5a3bbcd7468aeb2b4a8b45af.html

Adrián Blanco, 2016. Así construimos qué factores sociodemográficos influyeron en el voto el 20-D y el 26-J. Recuperado de https://lab.elconfidencial.com/as%C3%AD-construimos-un-modelo-para-conocer-qu%C3%A9-factores-sociodemogr%C3%A1ficos-influyeron-en-el-voto-el-20-d-6e5cd298929d

Descargar aquí datos CSV de Civio

Be Sociable, Share!