Data Mining: entre la actualidad y la investigación

Data Mining: entre la actualidad y la investigación

El colapso circulatorio en la autopista AP-6 a causa las nevadas ha copado las portadas de los medios de comunicación en los últimos días. Entre las acusaciones de culpabilidad por el caos y las peticiones de responsabilidades al gobierno, la DGT y los gestores de las autopistas, elconfidencial.com, en su sección de datos, ha elaborado una interesante noticia con el titular “Las concesionarias despidieron al 37% de los empleados mientras subían los peajes un 17%.

La información destaca cómo las empresas concesionarias han ido reduciendo sus plantillas de trabajadores a la vez que subían las tarifas del peaje y, a base de gráficos de elaboración propia, se explica la evolución del sector, el número de trabajadores por kilómetro, sus ingresos, y cuál es la más cara.

Estas conclusiones se han extraído a partir de los datos recogidos en un informe sobre el sector elaborado por la Delegación del Gobierno en las Sociedades Concesionarias de Autopistas Nacionales de Peaje, organismo dependiente del Ministerio de Fomento.

Este informe está enlazado en el propio reportaje y, al acceder al mismo, encontramos un gran PDF de 201 páginas que, como explican los autores del reportaje, han tenido que desentrañar para obtener la información publicada.

Tablas y gráficos, que al estar en formato PDF, habrán sacado con herramientas tipo Tabula para, posteriormente, limpiarlas y ordenarlas para descubrir datos tan significativos. De hecho, he considerado hacer la comprobación subiendo el PDF a Tabula, y pesar de tener tablas bien delineadas, he podido constatar que algunas filas y columnas no se han extraído correctamente, por lo que se confirma, una vez más, que nunca te libras de la tarea de limpieza y verificación.

Más complicado es cuando tienes que extraer los datos de documentos escritos a mano que consigues mediante filtraciones en exclusiva. Sería el caso de la serie de reportajes de eldiario,es sobre la financiación del Partido Popular a través de los papeles de su extesorero, Rosendo Naseiro.

Como se puede ver, los autores de la noticia se tuvieron que enfrentar a la recuperación de unos documentos que, mayoritariamente, son fotocopias de cheques o resguardos de bancos con cifras a mano o a máquina, que recibirían, o bien en formato papel, o escaneados en PDF, con mala calidad de imagen y, con toda seguridad, guardados en formatos no reutilizables. En ambos casos, la tarea de extracción habrá sido ardua.

Para conseguir esta clase de datos, sin digitalizar o sin adaptar a formatos reutilizables, habrán tenido que servirse de los sistemas de reconocimiento óptico de caracteres de imagen y texto, para luego realizar una gran labor de limpieza y verificación, libros de Excel para ordenar las cifras y después elaborar visualizaciones con Tableau, como se muestra en la información, donde se enumeran por fechas, tipo de entrega, destino o procedencia, los movimientos de dinero, supuestamente, destinados a la financiación del partido.

En definitiva, con estos dos casos, he querido destacar cómo la minería de datos está presente tanto en noticias de actualidad como para aquellos reportajes de investigación sobre hechos ocurridos antes de la era digital.

Be Sociable, Share!