Data mining en los medios (EJEMPLO PRÁCTICO)

DESERCIÓN

Para el ejemplo práctico consideramos un reportaje de investigación de La Nación de Costa Rica llamado “Mística de docentes salvó a 6.000 colegiales de desertar”.

 http://www.nacion.com/gnfactory/especiales/2014/desercionestudiantil/ 

Este trabajo explica la deserción escolar en el nivel secundario en toda Costa Rica y detalla los esfuerzos en 142 colegios públicos asegurando que habría 6.000 colegiales menos de no ser por los docentes. Esa problemática es abordad desde la visión de los estudiantes y profesores, con estudios de caso, y con cifras nacionales y detalladas por Colegio, desde lo local hasta lo regional.

Según explica el mismo medio, para esa investigación no se hizo el típico ejercicio de analizar la deserción escolar con cifras y porcentajes a escala nacional. Este trabajo desmenuzó las estadísticas colegio por colegio en ese país.

El medio y sus investigadores analizaron las bases de datos con la información de 643 colegios públicos del país en 2011. Esos archivos incluyen los números (relativos y absolutos) de matrícula y deserción, registrados en 2011, 2012 y 2013 en cada una de esas instituciones, información suministrada por el Departamento de Estadística del Ministerio de Educación Pública (MEP).

DATA

Además los datos fueron validados mediante consultas telefónicas a los 12 colegios que presentaban los cambios en deserción más significativos. Realizada esta investigación la data se agrupó por año, tipo de colegio, tamaño de cada centro educativo y cantidad de alumnos. A su vez esa información fue divida por Dirección Regional, provincia y cantón de localización de cada institución (http://www.nacion.com/gnfactory/investigacion/periodismo-datos/bd/desercion/BASE_DE_DATOS_DESERCION_COLEGIOS_PUBLICOS_2011-2013.txt).

Después se calculó cuánto cambió el indicador de deserción, en puntos porcentuales, en cada colegio en los dos períodos comprendidos entre 2011 y 2013. La variación también se estimó en cantidades absolutas respecto de la matrícula.

La base de la investigación surgió a partir de la información oficial del MEP, misma que fue analizada en Excel y también visualizada en el software de Tableau Public. La recopilación de información fue automatizada y convertida de PDF a archivos de Excel y Base de datos mediante un recopilador de información  automatizado.

Uno de los problemas fueron las incoherencias entre la información de los colegios y los datos oficiales. En algunos casos fueron cambiados, aunque las URL y los nombres de los archivos no se modificaron. Ante estos problemas y la imposibilidad de cruzar los datos en todo el período investigado se  realizaron llamadas telefónicas.

Para la investigación La Nación usó VBasic para aplicaciones de Excel Macros y Tableau Public. Quizás la  investigación se habría podido enriquecer con mapas más interactivos o crear mapas propios con aplicaciones como Ruby on Rails o la API de cuadros Google.

Be Sociable, Share!