Propuesta de un conjunto de herramientas de minería de datos para evaluar el desempeño de los estudiantes y los procesos de enseñanza - aprendizaje en el ámbito de la educación en ingeniería
- Buenaño Fernandez, Diego Patricio
- Sergio Luján Mora Director
- David Gil Méndez Co-director
Universidade de defensa: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 19 de xuño de 2020
- Joaquín Nicolás Ros Presidente
- Higinio Mora Mora Secretario/a
- Mary Luz Sánchez Gordon Vogal
Tipo: Tese
Resumo
Introducción - Motivación En las últimas décadas, el potencial de la minería de datos y la analítica consideradas como técnicas y metodologías que extraen información valiosa y procesable de grandes conjuntos de datos, ha transformado la gestión de la información y ha amplificado la investigación en estos campos. El creciente uso de las tecnologías de la información y la comunicación (TIC) en entornos educativos y en particular en las instituciones de educación superior (IES) ha potenciado la generación de proyectos de innovación educativa provocando que en la actualidad los estudiantes generen datos a una velocidad mucho mayor que hace unos pocos años. El registro histórico de calificaciones de los estudiantes, los resultados de pruebas y exámenes, los datos de interacción permanente con sistemas de gestión del aprendizaje (LMS, acrónimo en inglés de Learning Management System), la información de las coordenadas de ubicación geográfica registrada en la matrícula estudiantil, el registro de asistencia, etc. son solo algunos ejemplos del volumen y variedad de información que dejan los estudiantes en su día a día. La mayoría de estos datos se almacenan únicamente con fines administrativos, muchas veces para no volverlos a utilizar en ninguna otra ocasión. Sin embargo, estos datos pueden mejorar significativamente el proceso de toma de decisiones en las IES esto con el objetivo final de potenciar la calidad académica en los programas de estudio. Los datos generados en las IES son almacenados en diferentes formatos y en variados tipos de repositorios tales como registros de LMS, blogs, bases de datos, documentos digitales, redes sociales, imágenes, videos, audios, metadatos e hipervínculos. La cantidad de datos disponibles en estos repositorios es cada vez más grande y variada, lo cual implica que su procesamiento a través de técnicas basadas en estadística tradicional resulte insuficiente. En muchas ocasiones, al no disponer de técnicas y herramientas adecuadas para procesar este volumen de datos, se corre el riesgo de que toda la información almacenada se desperdicie o sub utilice. Es decir, se pierde la oportunidad de tomar decisiones estratégicas a partir de indicadores objetivos. Por lo tanto, estos datos requieren la aplicación de métodos o técnicas apropiadas para procesarlos y extraer de ellos conocimiento. En el campo educativo, estas técnicas se clasifican en lo que se conoce como minería de datos educativos (EDM, Educational Data Mining), analítica de aprendizaje (LA, Learning Analytics) y el descubrimiento de conocimiento en bases de datos (KDD, Knowledge Discovery in Databases). La International Educational Data Mining Society define EDM como: “an emerging discipline, concerned with developing methods for exploring the unique and increasingly large-scale data that come from educational settings and using those methods to better understand students, and the settings which they learn in” (Es una disciplina emergente, preocupada por desarrollar métodos para explorar los tipos únicos de datos que provienen de entornos educativos y usar esos métodos para comprender de mejor manera a estudiantes y sus entornos de aprendizaje). Por otro lado, se han identificado varias definiciones de LA en las que se evidencia que no todos los autores están de acuerdo con ellas. Un enfoque ampliamente aceptado es el propuesto por la Society for Learning Analytics Research que define a LA como ‘‘the measurement, collection, analysis and reporting of data about learners and their contexts, for purposes of understanding and optimising learning and the environments in which it occurs” (La medición, recopilación, análisis y presentación de datos sobre los estudiantes y sus contextos, con el fin de comprender y optimizar el aprendizaje y los entornos en los que ocurre). Desarrollo En la primera etapa de este proyecto se trabajó en la revisión de conceptos básicos que sustentan el desarrollo de este trabajo de investigación, además, se trabajó en una revisión sistemática de la literatura (Buenaño-Fernández y otros, 2019). Esta revisión abarcó el período comprendido entre los años 2012 y 2018. La revisión sistemática de la literatura estuvo relacionada con el uso de herramientas de DM en la toma de decisiones en el ámbito de la educación en ingeniería. El trabajo contribuyó a la consecución del OE. 1 (Evaluar el estado de la cuestión). El estudio descrito en esta revisión proporciona a los investigadores una visión general del progreso realizado hasta la fecha en temas de DM en entornos educativos, e identifica áreas en las que falta profundizar la investigación. Para la búsqueda se utilizaron diferentes bases de datos científicas. Un resultado importante de esta investigación fue identificar las principales acciones o estrategias educativas que pueden ser potenciadas con la aplicación de técnicas y métodos de DM. Tomando como base los resultados obtenidos en la revisión sistemática de literatura, en una segunda fase, se procedió a realizar un análisis de los principales enfoques y herramientas para la aplicación de DM en entornos educativos en ingeniería (OE. 2) (Analizar enfoques y herramientas). En ese sentido, en el artículo (Buenaño-Fernández y Luján-Mora, 2017) desarrollamos un caso de estudio práctico cuyo objetivo fue comparar las características técnicas de tres herramientas de código abierto (RapidMiner4, Knime5 y Weka6. Estas características fueron evaluadas sobre los registros académicos de tres programas de ingeniería en una universidad ecuatoriana. Las herramientas evaluadas han facilitado la implementación de algoritmos complejos para identificar patrones ocultos de información en bases de datos académicas. Un segundo trabajo que contribuyó a la consecución del OE. 2 (Analizar enfoques y herramientas) fue el artículo (Buenaño-Fernández y Luján-Mora, 2016). En este trabajo se identificaron las principales categorías de aplicación de la EDM y la LA, así como los principales métodos y técnicas usados en entornos educativos. En una tercera fase y teniendo como base la información recabada en el OE. 2 (Analizar enfoques y herramientas) se trabajó en la aplicación de diferentes técnicas y herramientas de MD, con el objetivo de evaluar el rendimiento de estudiantes en el campo de la educación en ingeniería. En el artículo presentado en el número especial “Big Data Research For Social Sciences and Social Impact” de la revista Sustainability (Buenaño-Fernández, Gil, y Luján-Mora, 2019), se aplicaron técnicas de aprendizaje supervisado con el objetivo de predecir las calificaciones finales de los estudiantes en función de su rendimiento histórico de calificaciones. Esta propuesta se aplicó sobre la información académica histórica de estudiantes matriculados en la carrera de ingeniería informática en una universidad ecuatoriana. Este artículo propone una metodología, en la cual inicialmente se ejecuta el proceso de recopilación y preprocesamiento de datos, luego en una segunda etapa, se lleva a cabo la agrupación de estudiantes con patrones similares de rendimiento académico. En la siguiente fase, en función de los patrones identificados, se seleccionó el algoritmo de aprendizaje supervisado más apropiado, y luego se llevó a cabo el proceso experimental. Los resultados mostraron la efectividad de las técnicas de aprendizaje automático en la predicción del rendimiento de los estudiantes. El trabajo presentado en (Buenaño-Fernández y Luján-Mora, 2019) describe el uso de herramientas de EDM y de minería de procesos para identificar las rutas de aprendizaje de estudiantes con discapacidad visual. Finalmente se tiene el artículo presentado en el congreso RIIFORUM (Buenaño-Fernández, Luján-Mora, y Gil, 2019). Este documento propone la aplicación de un enfoque híbrido de aprendizaje automático, con el objetivo de sentar las bases para una futura implementación de un sistema de recomendación que permita a los estudiantes tomar decisiones relacionadas con su proceso de aprendizaje. En este artículo se propuso un estudio de caso sobre la información académica de los estudiantes de ingeniería. Los resultados obtenidos en este artículo muestran la efectividad de aplicar un enfoque híbrido de aprendizaje automático. La metodología propuesta en este trabajo se compone, por un lado, de técnicas de aprendizaje supervisado con el objetivo de clasificar los datos en grupos, y por otro lado, teniendo esta clasificación inicial, técnicas de aprendizaje no supervisadas con el objetivo de llevar a cabo un análisis predictivo de los registros de calificaciones históricas de los estudiantes. La cuarta fase del trabajo se enfoca en el cumplimiento del OE. 4 (Evaluar procesos de enseñanza - aprendizaje), el mismo que se ha plasmado a través de dos artículos tal como se describe en la Tabla 1.2. Como se puede observar los objetivos planteados en esta tesis han crecido en aplicación y alcance. Este objetivo se enfoca en la evaluación de procesos de enseñanza - aprendizaje en el ámbito de la educación en ingeniería a través de la aplicación de técnicas de minería de textos. En el artículo (Buenaño-Fernández, Luján-Mora, y Villegas-Ch, 2017) se explora el uso de técnicas de minería de textos con el fin de evaluar la opinión de mensajes de correo electrónico de cursos en línea masivos y abiertos (MOOC, Massive Open Online Courses). La técnica de minería de opinión aplicada sobre correos electrónicos es una tarea compleja debido a la disparidad temática de los correos electrónicos, su tamaño y la profundidad del análisis lingüístico requerido. El propósito de este estudio fue analizar las opiniones de los estudiantes sobre sus cursos, sus instructores y las principales herramientas utilizadas en el curso. La investigación se centró en el cálculo y análisis de la frecuencia de términos, el análisis de concordancias, agrupaciones y n-gramas. El estudio de caso utilizado en este documento fueron correos de un MOOC sobre la temática de desarrollo web con más de 40,000 estudiantes matriculados. Conclusiones En la investigación realizada en la presente tesis se han identificado algunas estrategias académicas del campo educativo que pueden beneficiarse con la aplicación de técnicas de DM. Estas acciones son: Retroalimentación de la gestión docente. Retroalimentación a estudiantes. Predicción del desempeño estudiantil. Análisis de la interacción de la comunidad educativa. Análisis y visualización de datos para detectar y comprender tendencias. En las publicaciones incluidas en el compendio se evidenció la aplicación de técnicas de DM a través de la realización de casos de estudio. Estos casos de estudio estuvieron orientados a trabajar sobre las estrategias académicas descritas en el párrafo anterior. Por ejemplo, en la publicación (Buenaño-Fernández, Gil, y Luján-Mora, 2019) se trabajó en una metodología para monitorear y predecir las calificaciones de estudiantes en el ámbito de la educación en ingeniería. Esta metodología fue evaluada sobre las calificaciones históricas de un grupo de estudiantes de ingeniería en una universidad ecuatoriana. La metodología propuso la agrupación de estudiantes que cumplían con ciertas condiciones comunes, por ejemplo, aquellos que tomaron las mismas materias y que aprobaron esas materias en el mismo período académico, afinidades por área de conocimiento, por desempeño académico por semestre. En el artículo (Buenaño- Fernández y otros, 2020) se presentó una propuesta metodológica basada en modelado de tópicos y modelado de redes para identificar las estrategias que utilizan los docentes en el ámbito de la educación en ingeniería para fortalecer la retención estudiantil. En el artículo (Buenaño-Fernández y Luján-Mora, 2019) se trabajó en una propuesta basada en minería de procesos con el objetivo de identificar inconvenientes en las rutas de aprendizaje de estudiantes con algún tipo de discapacidad. Un tema importante para reflexionar tiene que ver con las dificultades existentes para obtener los datos con los cuales llevar a cabo los casos de estudio. Las IES manejan esta información con mucho sigilo, debido a que su mal uso puede generar consecuencias imprevistas que afecten a los involucrados (docentes y estudiantes). Por tal razón es fundamental que los resultados obtenidos en las investigaciones sean presentados a las IES de manera que puedan palpar los beneficios sobre los procesos de enseñanza - aprendizaje y por ende sobre la calidad académica. Un aspecto primordial en este tema es precautelar la información personal de los estudiantes y docentes, en ese sentido en esta investigación hemos anonimizado toda información personal que pudiese aparecer en los estudios de caso. El análisis de los datos obtenidos en los procesos de EDM y LA debe poner especial atención a las variables externas que pudiesen afectar los resultados de los estudios de caso. Las variables externas hacen referencia a parámetros específicos del entorno educativo. Por ejemplo, al replicar una herramienta desarrollada a la medida para una institución en particular, se debe realizar un análisis comparativo del modelo educativo que rige en las dos instituciones. También se debe tomar en cuenta, por ejemplo, las características comportamentales de los estudiantes, no es lo mismo realizar el análisis de la información de estudiantes de una carrera de formación humanística que para estudiantes de carreras de ingeniería o medicina. Una característica particular identificada en los estudiantes de ingeniería es que generalmente tienen comportamientos académicos muy irregulares en la aprobación de las materias previstas en su plan de estudios. Esto está estrechamente ligado con el hecho de que, para los títulos de ingeniería, las tasas de repetición son altas, especialmente en materias relacionadas con las matemáticas o la ingeniería básica. Como resultado de la investigación realizada se han identificado iniciativas locales o regionales que están trabajando sobre el tema de EDM y LA en la educación superior. Es recomendable unirse a estas iniciativas y redes de investigación con el fin de beneficiarse de los proyectos que se ejecutan en el área del EDM. La aplicación de técnicas de minería de textos orientadas a evaluar la interacción de estudiantes y docentes en procesos de enseñanza - aprendizaje ha demostrado que puede contribuir de forma significativa en el análisis de grandes volúmenes de información no estructurada. En la actualidad, en los entornos virtuales de aprendizaje se genera un gran volumen de datos textuales a través de comentarios en redes sociales, publicaciones de blog, encuestas con preguntas abiertas, entre otros. Esto demuestra que los datos de texto se usan con frecuencia y, por lo tanto, su procesamiento se convierte en un desafío para los investigadores. En la presente tesis se ha trabajado con técnicas de modelado de tópicos, técnicas de modelado de redes y técnicas de análisis de sentimientos para procesar datos provenientes de diferentes fuentes que implica, como se ha descrito a lo largo de este documento, uno de los mayores retos con el que nos encontramos en la actualidad del Big Data, y que es el de la variedad en las fuentes de datos. Un ejemplo lo tenemos en la información de correos electrónicos de cursos MOOC que se trabajó en el artículo (Buenaño-Fernández y otros, 2017) y contribuyó con el análisis de datos generados en la interacción de estudiantes a través de redes sociales. Finalmente, se trabajó en el análisis de datos de encuestas de autoevaluación docente con preguntas abiertas (Buenaño-Fernández y otros, 2020). El aporte de este último trabajo está relacionado con la estrategia educativa de retroalimentación de la gestión docente. El uso de herramientas de minería de datos para la toma de decisiones en la educación de ingeniería (Buenaño-Fernández y otros, 2019) permitió obtener información valiosa para alinear los casos de estudio con el plan de investigación propuesto. A partir de las preguntas de investigación que se plantearon en el mapeo sistemático se identificaron las principales técnicas y métodos de EDM y LA que son los mas usados en el campo de la educación en ingeniería. También se identificaron las principales estrategias académicas de la educación en ingeniería en las que se aplicaron técnicas de EDM y LA. A lo largo del programa de doctorado se profundizó en el estudio y desarrollo de casos de estudio enfocados en estas dos temáticas. Bibliografía Akram, M., y Zepeda, S. (2015). Development and Validation of a Teacher Selfassessment Instrument. Research and Reflections in Education, 9 (2), 134–148. Baker, R. S., y Inventado, P. S. (2014). Educational Data Mining and Learning Analytics. En Learning analytics (pp. 61–75). New York, NY: Springer New York. doi: 10.1007/978-1-4614-3305-7_4 Beck, J. E., Chang, K. M., Mostow, J., y Corbett, A. (2008). Does help help? Introducing the bayesian evaluation and assessment methodology. En Proceedings of intelligent tutoring systems (pp. 383–394). doi: 10.1007/978-3-540-69132-7-42 Bogarín, A., Cerezo, R., y Romero, C. (2017). A survey on educational process mining. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 8 (1), 1–17. doi: 10.1002/widm.1230 Buenaño-Fernández, D., y Luján-Mora, S. (2016). Exploring approaches to educational data mining and learning analytics to measure the level of acquisition of student’s learning outcomes. En Proceedings of 8th Conference on Education and New Learning Technologies (EDULEARN16) (pp. 1845–1850). doi: 10.21125/edulearn .2016.1368 Buenaño-Fernández, D., Gil, D., y Luján-Mora, S. (2019). Application of machine learning in predicting performance for computer engineering students: A case study. Sustainability (Switzerland), 11 (10), 1–18. doi: 10.3390/su11102833 Buenaño-Fernández, D., Luján-Mora, S., y Gil, D. (2019). A hybrid machine learning approach for the prediction of grades in computer engineering students. En The International Research & Innovation Forum (RIIFORUM) (pp. 125–134). doi: 10.1007/978-3-030-30809-4_13 Buenaño-Fernández, D., Luján-Mora, S., y Villegas-Ch, W. (2017). Improvement of massive open online courses by text mining of students’ emails: A case study. En Proceedings of the 5th International Conference on Technological Ecosystems for Enhancing Multiculturality (TEEM) (pp. 1–7). doi: 10.1145/3144826.3145393 Buenaño-Fernández, D., Villegas-Ch, W., y Luján-Mora, S. (2018). Using text mining to evaluate student interaction in virtual learning environments. En Proceedings of the 2dn IEEE World Engineering Education Conference (EDUNINE) (pp. 1– 6). IEEE. doi: 10.1109/EDUNINE.2018.8450969 Buenaño-Fernández, D., y Luján-Mora, S. (2019). Proposal of application of process mining to evaluate the learning routes of students with visual disability in online courses. Revista Ibérica de Sistemas y Tecnologias de Información (RISTI), E17(1), 1035–1047. doi: 10.1007/978-3-030-30809-4_13 Buenaño-Fernández, D., Villegas-Ch, W., y Luján-Mora, S. (2019). The use of tools of data mining to decision making in engineering education—A systematic mapping study. Computer Applications in Engineering Education, 27 (3), 744–758. doi: 10.1002/cae.22100 Buenaño-Fernández, D., Gonzalez, M., Gil, D., y Luján-Mora, S. (2020). Text Mining of Open-Ended Questions in Self-Assessment of University Teachers: An LDA Topic Modeling Approach. IEEE Access, 8 (1), 35318–35330. doi: 10.1109/ACCESS .2020.2974983 Buenaño-Fernández, D., y Luján-Mora, S. (2017). Comparison of applications for educational data mining in Engineering Education. En Proceedings of the 1st IEEE World Engineering Education Conference (EDUNINE) (pp. 81–85). doi: 10.1109/EDUNINE.2017.7918187 Cawley, G. C., y Talbot, N. L. (2003). Efficient leave-one-out cross-validation of kernel fisher discriminant classifiers. Pattern Recognition, 36 (11), 2585–2592. doi: 10.1016/S0031-3203(03)00136-5 Conde, M. A., Colomo-Palacios, R., García-Peñalvo, F. J., y Larrucea, X. (2018). Teamwork assessment in the educational web of data: A learning analytics approach towards ISO 10018. Telematics and Informatics, 35 (3), 551–563. doi: 10.1016/j.tele.2017.02.001 Ferguson, R. (2012). Learning analytics: drivers, developments and challenges. International Journal of Technology Enhanced Learning, 4 (5/6), 304. doi: 10.1504/ IJTEL.2012.051816 Johnson, L., Samantha, A., Michele, C., Victora, E., Alex, F., y Courtney, H. (2016). Nmc horizon report: 2016 higher education. The New Media Consortium. Jovanovic, J., Gaševic, D., Dawson, S., Pardo, A., y Mirriahi, N. (2017). Learning analytics to unveil learning strategies in a flipped classroom. The Internet and Higher Education, 33 (1), 74–85. doi: 10.1016/j.iheduc.2017.02.001 Lu, O. H., Huang, A. Y., Huang, J. C., Lin, A. J., Ogata, H., y Yang, S. J. (2018). Applying learning analytics for the early prediction of students’ academic performance in blended learning. Educational Technology and Society, 21 (2), 220–232. ) Maldonado-Mahauad, J., Hilliger, I., Pérez-Sanagustín, M., Millecamp, M., Verbert, K., y Ochoa, X. (2018). The LALA Project: Building Capacity to Use Learning Analytics to Improve Higher Education in Latin America. En Proceedings of the 8th International Learning Analytics & Knowledge Conference (LAK) (pp. 630–637). Menchaca, I., Guenaga, M., y Solabarrieta, J. (2016). Using learning analytics to assess project management skills on engineering degree courses. En Proceedings of the 4th International Conference on Technological Ecosystems for Enhancing Multiculturality (TEEM) (pp. 369–376). doi: 10.1145/3012430.3012542 Polyzou, A., y Karypis, G. (2016). Grade prediction with models specific to students and courses. International Journal of Data Science and Analytics, 2 (3-4), 159–171. doi: 10.1007/s41060-016-0024-z Ray, S., y Saeed, M. (2018). Applications of Educational Data Mining and Learning Analytics Tools in Handling Big Data in Higher Education. , 5 (4), 135–160. doi: 10.21917/ijsc.2015.0145 Romero, C., Ventura, S., y García, E. (2008). Data mining in course management systems: Moodle case study and tutorial. Computers & Education, 51 (1), 368–384. doi: 10.1016/j.compedu.2007.05.016 Ross, J. A., y Bruce, C. D. (2007). Teacher self-assessment: A mechanism for facilitating professional growth. Teaching and Teacher Education, 23 (2), 146–159. doi: 10 .1016/j.tate.2006.04.035 Siemens, G. (2012). Learning analytics: envisioning a research discipline and a domain of practice. En Proceedings of the 2nd International Conference on Learning Analytics and Knowledge (LAK) (pp. 4–8). doi: 10.1145/2330601.2330605 Sin, K., y Muthu, L. (2015). Application of Big Data in Education Data Mining and Learning Analytics a Literature Review. Journal on Soft Computing: Special issue on Soft Computing models for Big Data, 5 (4), 1035–1049. doi: 10.21917/ ijsc.2015.0145 Viner, R. M., Russell, S. J., Croker, H., Packer, J.,Ward, J., Stansfield, C., . . . Booy, R. (2020). School closure and management practices during coronavirus outbreaks including COVID-19: a rapid systematic review. The Lancet Child & Adolescent Health, 4 (5), 397–404. doi: 10.1016/S2352-4642(20)30095-X Weiss, S. M., Indurkhya, N., y Zhang, T. (2010). Fundamentals of Predictive Text Mining. London: Springer London. doi: 10.1007/978-1-84996-226-1