Minería de datos en los medios

Con la llegada al poder del ex presidente ecuatoriano Rafael Correa en el 2007, la educación superior ecuatoriana tomó un nuevo rumbo. Los graduados de la secundaria no escogerían libremente la carrera universitaria que querían seguir, sino que serían reubicados en las diferentes facultades del país, de acuerdo al puntaje que obtuvieran en el Examen Nacional para la Educación Superior (Enes).

Marco Carrasco, periodista de Diario El Universo realizó una investigación empleando técnicas de minería de datos para descubrir cuáles estudiantes obtuvieron las mejores calificaciones en el 2017, los de la región Costa o la Sierra ecuatoriana y por ende verificar quiénes se llevaban la mayoría de cupos universitarios. El reportaje es: Cupo universitario, mejor en la Sierra que en la Costa.

Mediante este artículo se pudo conocer que los estudiantes de la Sierra lograron más cupos que los costeños por tener mejores puntajes.  Como fuentes secundarias tomó a la Secretaría Nacional de Educación Superior, Ciencia y Tecnología (Senescyt), al Ministerio de Educación de Ecuador y algunos especialistas en el tema educativo.

Imagino que el compañero solicitó al Senescyt los datos de todos los inscritos y los resultados de calificaciones por provincias ya que esa información no se encuentra en el portal de datos abiertos. Recibió varios documentos en formato pdf de tipo nativo por cada provincia, por lo que hizo la conversión a hoja de cálculo empleando Tabula. Instaló el programa, subió los archivos, seleccionó las tablas de interés una a una, previsualizó los resultados e hizo la conversión. Teniendo como resultado datasets de Excel procedió a hacer la limpieza minuciosa de los valores verificando que los datos del pdf hayan sido fielmente trasladados a la hoja de cálculo. Acondicionó el dataset manualmente y mediante el uso de las funciones de Excel. Unificó todas las tablas y pudo proceder al análisis de los datos y comparaciones entre provincias.

Otro ejemplo de empleo de técnicas de minería de datos es el ranking de los 100 mejores colegios en Ecuador ¿dónde está la calidad? publicado por Revista Vistazo. El periodista Alejandro Pérez se basó en los resultados de la prueba Ser Bachiller para descubrir los colegios que más altas notas sacaron en esta prueba. La conclusión es que los tres promedios más altos estaban en la ciudad de Quito. La nota es la siguiente: Los 100 mejores colegios del país.

Tomó como fuente secundaria al Instituto Nacional de Evaluación Educativa (Ineval), institución encargada de estas pruebas. El periodista recibió los reportes de las pruebas Ser Bachiller en formato pdf de imágenes, por lo que para convertirlos a un dataset manejable empleó Online OCR y, una vez que consiguió convertirlos a Excel pudo hacer análisis, comparaciones y elaborar gráficos como el que vemos en la nota de la revista. Esa es la importancia de que los periodistas de vanguardia conozcamos las herramientas de extracción de datos y mejor aún nociones de Programación, ya que nos ahorramos tiempo en la transcripción manual de los datos. Además, podemos proponer temas propios como este que rutinariamente no se ven en los medios escritos. Son temas que salen del común de las notas diarias de un periódico. Tienen mayor elaboración.

Be Sociable, Share!