Líneas de comandos y el periodismo de datos

La programación se ha convertido en una herramienta fundamental en el periodismo de datos, debido a la versatilidad que ofrece para procesar una gran cantidad datos de forma rápida y eficiente, especialmente con el uso de las líneas de comando y las expresiones regulares.

Consulta y creación de archivos CSV

Por ejemplo en el artículo “Too much data? Using the command line” (¿Demasiados datos? Usando la línea de comandos), publicado por la periodista costarricense Daniela Lépiz en el portal “Code for South Africa. Data Journalism Academy”, destaca la funcionabilidad que ofrece la herramienta Csvkit, para consultar, modificar y crear nuevos documentos a partir de un archivo CSV.

En este caso la periodista utilizó el comando csvcut – n, para consultar el contenido de una CSV que contiene datos sobre las muertes por el virus de VIH en África. Luego eligió las columnas que necesitada de la base de datos original, en este caso el año, la provincia, sexo, la causa de muerte subyacente, y con el comando cavcut – c. combinó los datos en un nuevo data set, llamado 2010.csv.

Captura de pantalla 2019-05-31 a la(s) 5.45.32 a. m.

Captura de pantalla 2019-05-31 a la(s) 5.45.44 a. m.

La periodista repitió esta acción, creando nuevos archivos y organizándolos por años, y al final con el comando cat, combinó todos los archivos en un sólo documento de texto.

Captura de pantalla 2019-05-31 a la(s) 5.47.05 a. m.

Finalmente creo un CSV filtrado bajo un criterio determinado, en este caso obtener las filas dentro de la columna “muerte subyacente”, que contengan los códigos B20, B21, B22, B23 y B24, bajo los cuales están registrados las muertes de VIH-Sida en la base de datos. Para ejecutar esta acción utilizó los comandos $csvgrep -c Underlyingcause -r “B20|B21|B22|B23|B24” alldata.csv > filtered.csv.

Captura de pantalla 2019-05-31 a la(s) 6.47.09 a. m.

Captura de pantalla 2019-05-31 a la(s) 6.47.19 a. m.

Sin dudas el procesamiento de información a través de línea de comandos permite al periodista ahorrar mucho tiempo en el proceso de extraer datos de varias bases de datos, y sobretodo combinarlas cuando esta cuenta con criterios a fines como fue este ejemplo, que cada archivo CSV estaban divididos por años, pero tenían el mismo criterio de organización.

Expresiones regulares para la consulta de datos

En el artículo “Web Scraping, Regular Expressions, and Data Visualization: Doing it all in Python”, el periodista Will Koehrsen, destaca la utilidad de las expresiones regulares para extraer datos de una forma eficiente. En este caso Koehrsen con la siguiente línea de comandos obtiene los siguientes datos de una tabla: Nombre del rector de Universidad, Nombre de la Universidad y Salario. Durante este ejercicio se utilizó el lenguaje Python para convertir de texto a números los salarios.

Captura de pantalla 2019-06-01 a la(s) 9.02.32 a. m. Captura de pantalla 2019-06-01 a la(s) 9.02.42 a. m.Captura de pantalla 2019-06-01 a la(s) 9.03.05 a. m.Captura de pantalla 2019-06-01 a la(s) 9.03.18 a. m.

Considero que las expresiones regulares pueden ser de mucha utilidad para hacer “Web Scripting”, y extracción de datos de tablas alojadas en páginas como Wikipedia entre otras.

Mapas

La configuración de mapas a través de líneas de comando puede ser una herramienta muy poderosa como explica Michael Bostock, reconocido programador y especialista en visualización de data, que realiza trabajos para el New York Times.

Este en su artículo “Let’s Make a Map”, nos explica como usando la biblioteca de JavaScript D3 y archivos TopoJson, se pueden hacer mapas interactivos desde cero, lo que puede ser algo muy útil para artículos sobre análisis electoral o historias donde la ubicación geográfica ofrezca valor a la noticia.

Captura de pantalla 2019-05-31 a la(s) 7.39.55 a. m.

Fuente:

Too much data? Using the command line

http://academy.code4sa.org/behind-the-scenes/one-wranglers-much-data-using-command-line

Web Scraping, Regular Expressions, and Data Visualization: Doing it all in Python

https://towardsdatascience.com/web-scraping-regular-expressions-and-data-visualization-doing-it-all-in-python-37a1aade7924

Let’s Make a Map

https://bost.ocks.org/mike/map/

 

Be Sociable, Share!