128 años de fútbol inglés comprimidos en un CSV

A pesar de no tratarse un registro en el que los medios de nuestro país se hayan prodigado en exceso hasta el momento, la aplicación del periodismo de datos al ámbito deportivo ha dado lugar al nacimiento de diferentes proyectos, así como unidades de trabajo específicas en medios generalistas como The New York Times, The Washington Post o The Guardian.

En este caso hablamos de un reportaje publicado en 2014 en FiveThirtyEight, proyecto digital estadounidense especializado en la utilización del periodismo de datos para diferentes ámbitos como la ciencia, la política y el deporte. La pieza en cuestión aprovecha la coyuntura informativa relativa a la jornada de Premier League inglesa del 6 del octubre de 2014, donde sólo un conjunto que actuaba como local cosechó derrota, y se propone evaluar la importancia del factor cancha en el fútbol ingles a lo largo de su historia.

Previo a la fase de análisis, James Curley elabora una base de datos en formato CSV en la que almacena cerca de 200.000 encuentros de fútbol celebrados en las cuatro principales divisiones inglesas desde la fundación de la competición en 1888. Por la documentación almacenada por el periodista en la plataforma GitHub se entiende que ha realizado una extracción progresiva a CSV de los resultados recurriendo a fuentes de datos secundarias, de fácil acceso en medios digitales deportivos de Reino Unido o en paginas webs de los diferentes clubes. La accesibilidad a estas cifras es tal que, intuimos, el autor pudo encontrar pdfs nativos que las recogieran, sin tener que recurrir a herramientas como OCR, para después comprimirlas todas en el mismo archivo y realizar la elaboración y refinación pertinente.

La relevancia de la investigación reside en que hablamos de datos que se pueden encontrar fácilmente en por separado, como la totalidad de encuentros celebrados a lo largo de una temporada, o los resultados cosechados por un determinado equipo en un año; incluso tablas de históricas que recogen de manera agregada el rendimiento de cada uno de los equipos desde el inicio de la competición, pero difícilmente se encontrará una base de datos que recoja uno por uno los partidos con información referente al resultado. Se trata ase de datos importados en bruto con un trabajo de edición manual detrás arduo y  muy elogiable. El autor ha tenido que realizar un proceso de ordenamiento de los partidos, para después establecer una codificación mediante fórmulas que le indicara si cada uno de estos había acabado en victoria local, triunfo visitante o empate.

El autor corona la investigación arroja resultados relevantes que revelan cómo la trascendencia de la localía experimentado un decrecimiento importante, pasando las victorias del local de producirse en un 60% de las ocasiones en los inicios del balompié ingles al 40% que registran hoy en día. En la misma línea, el promedio de goles marcados por el conjunto de casa ha bajado de más de 2,5 goles por partido a cerca de 1,5.

 

 

 

Porción de la base de datos elaborada por James Curley

Porción de la base de datos elaborada por James Curley

Be Sociable, Share!