¿A qué dedicaban su tiempo los americanos en 2009?

Para inaugurar este blog nada mejor que comenzar por uno de los ejemplos de utilización de la minería de datos que más me han gustado en los últimos años. En este caso la investigación se culmina con una visualización atractiva, reveladora y, por si todo esto fuera poco, interactiva.

El ejemplo pertenece al potente equipo de datos y visualización del New York Times, uno de los medios de comunicación que más ha mimado este tipo de periodismo. Y no es novedoso, porque como digo en el título del post pertenece a 2009 (y los datos a 2008). Recordemos, un año caracterizado por el impacto sufrido en casi todos los países occidentales por la crisis económica de la que, dicen, estamos saliendo en la actualidad.

El gráfico se encuentra vinculado a una noticia de la que podemos obtener un resumen en la versión gratuita del New York Times (quiero pensar que la noticia se encuentra más detallada una vez que saltemos el paywall), en la que se recuerda que el nivel de desempleo es el más alto de Estados Unidos en 27 años.

La visualización permite, mediante un gráfico de área, comprobar cómo pasan los norteamericanos un día normal.

¿Dónde se encuentra la minería? Sin lugar a dudas lo que subyace son numerosos datasets que nos especifican a qué dedica cada hora de un día de entre semana los norteamericanos (con una gran cantidad de estratificaciones dependiendo de cuestiones como género, etnia, nivel formativo, edad, etc.)

Como la fuente de los datos no aparece reflejada en el gráfico (craso error) debemos investigar para conocer la procedencia de estos datos, hasta dar con la siguiente página: https://www.bls.gov/tus/tustabs.htm

Allí observamos cómo se tienen que seleccionar cada una de las categorías para generar las tablas, que posteriormente se pueden descargar en formato de Excel (xlsx). Suponiendo que esta fuera la forma de descarga de 2009, lo que deberían hacer posteriormente, una vez descargadas las tablas de Excel, sería combinarlas y filtrar los datos para proceder a la visualización de forma interactiva.

Un trabajo de minería que requiere cierta laboriosidad (sobre todo a la hora de descargar todos los datos estratificados y, posteriormente, combinarlos) pero que de ser así se evita los siempre procelosos procesos de scraping.

La visualización resulta todo un acierto. Una forma de presentar los datos que autores como Alberto Cairo denominan “News applications”, en los que son los datos los que forman la noticia partiendo de la selección de los lectores.

De hecho, observamos cómo otros medios, como The Wall Street Journal, han seguido los pasos de The New York Times, pero con un resultado, por lo menos a la vista, mucho menos eficaz y, desde luego, menos atractivo.

How Different Groups Spend Their Day

Be Sociable, Share!