Prediction of academic situation in undergraduate students using machine learning algorithms.

Authors

  • Jesús Eduardo Gamboa Unsihuay Universidad Nacional Agraria la Molina, Facultad de Economía y Planificación, Departamento de Estadística e Informática, Lima, Perú.
  • Jesús Walter Salinas Flores Universidad Nacional Agraria la Molina, Facultad de Economía y Planificación, Departamento de Estadística e Informática, Lima, Perú.

DOI:

https://doi.org/10.47187/perf.v1i27.142

Keywords:

Ensemble, data mining, Boruta, optimal cut-off

Abstract

The academic performance of a university student is generally measured through their grades, which result in a normal or poor interpretation of the academic performance of the students. The grades, actually depends on various factors. The objective of this research was to find the main predictors of the academic performance of a university student after six semesters since her or his admission. For data analysis, the Boruta algorithm was used to select predictor variables and twelve classification algorithms were applied, after partitioning the data into training and evaluation sets. Then, those models with the best sensitivity, specificity and balanced accuracy values were chosen. Finally, an optimal assembly and cut-off point were used to improve predictions. The models with the best performance were logistic regression, Naive Bayes and vector support machines with linear kernel. The application used ensembles with optimal cut-off point, specificity of 0.695 and sensitivity of 0.947 were obtained. The grade obtained in Mathematics course was one of the most important to predict the academic performance after six semesters of studies, while the sociodemographic variables were not relevant.

Downloads

Download data is not yet available.

References

Alfaro E, Gámez M, García N. Ensemble Classification Methods with Applications in R. New Jersey: John Wiley & Sons, Ltd.; 2019.

Barragán S, González L. Un modelo para explicar la retención en la universidad de Bogotá Jorge Tadeo Lozano: árboles de decisión. Congresos CLABES. 2016. Disponible en: https://revistas.utp.ac.pa/index.php/clabes/article/view/1090

Calvache L, Alvarez V, Triviño J, Quiceno C, Pulgarin R. Aplicación de técnicas de minería de datos para la identificación de patrones de deserción estudiantil como apoyo a las estrategias de SARA (sistema de acompañamiento para el rendimiento académico). Congresos CLABES. 2018. Disponible en: https://revistas.utp.ac.pa/index.php/clabes/article/view/2021

Cichosz P. Data Mining Algorithms: Explained Using R. New Jersey: John Wiley & Sons, Ltd.; 2015.

Cortez F, Tutiven J, Villavicencio M. Determinantes del rendimiento académico universitario. Revista Publicando. 2017; 4(10): 284 - 296

Delgado R. Uso de los métodos multivariante para el análisis del desempeño académico de los estudiantes de la educación superior (Caso: Estudiantes ingresantes en el primer curso de Matemática de la UNALM) [tesis de maestría]. Perú: UNMSM; 2020

Dixit A. Ensemble Machine Learning. A beginner's guide that combines powerful machine learning algorithms to build optimized models. United Kingdom: Packt Publishing Ltd.; 2017.

Fernández A, García S, Galar M, Prati R, Krawczyk B, Herrera, F. Learning from Imbalanced Data Sets. New York: Springer; 2018.

Gareth J, Witten D, Hastie T, Tibshirani R, 2013. An Introduction to Statistical Learning: with Applications in R. New York: Springer Texts in Statistics; 2013.

Gómez-Sánchez D, Martínez-López E, Oviedo-Marín R. Factores que influyen en el rendimiento académico del estudiante universitario. Tecnociencia. 2011; 5(2): 90 – 97.

Haibo H, Yunqian M. Imbalanced Learning: Foundations, Algorithms, and Applications. New Jersey: John Wiley & Sons, Ltd. The Institute of Electrical and Electronics Engineers, Inc.; 2013.

Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd. ed. New York: Springer; 2001.

Huertas C, Bullón C. Evaluación del desempeño de los alumnos de la UNALM según su modalidad de ingreso. Anales Científicos. 2009. 70(3): 58-70.

Jiménez M. Análisis cuantitativo de las variables que influyen en el rendimiento universitario. RIDE Revista Iberoamericana para la Investigación y el Desarrollo Educativo. 2018. 9(17): 623 – 638.

Kumar I, Jaim M. Ensemble Learning for AI Developers. Learn Bagging, Stacking, and Boosting. Methods with Use Cases. New York: Springer Science+Business Media; 2020.

Lantz B. Machine Learning with R. United Kingdom: Packt Publishing Ltd.; 2019.

Montserrat V, González J, Patricio J. Modelo predictivo para la permanencia en la Educación Superior. Congresos CLABES. 2017. Disponible en: https://revistas.utp.ac.pa/index.php/clabes/article/view/1588

Mora R. Factores que intervienen en el rendimiento académico universitario: Un estudio de caso. Repositorio Institucional de la Universidad de Alicante [Internet]. 2021 [citado el 15 Agosto 2021]. 6: 1041 – 1063. Disponible en http://rua.ua.es/dspace/handle/10045/52320#vpreview

Moreira T, Hernández M, Solís M, Fernández T. Estudio descriptivo del perfil desertor en tres cohortes de estudiantes universitarios de primer ingreso. Congresos CLABES, 38-49. 2020. Disponible en: https://revistas.utp.ac.pa/index.php/clabes/article/view/2622

Munizaga F, Rojas-Murphy A, Leal R. Variables que Influyen en la retención de estudiantes de primer año en un programa de bachillerato chileno. Congresos CLABES. 2018. Disponible en: https://revistas.utp.ac.pa/index.php/clabes/article/view/1892

Narayanachar P. Hands-On Ensemble Learning with R. United Kingdom: Packt Publishing Ltd.; 2018.

Ocaña Y. Variables académicas que influyen en el rendimiento académico de los estudiantes universitarios. Investigación Educativa. 2011. 15(27): 165 – 180.

Rokach L. Pattern Classification using Ensemble Methods. Series in Machine Perception and Artificial Intelligence – Vol. 75. Singapur: World Scientific Publishing Co. Pte. Ltd.; 2010.

Tapasco O, Ruiz F, Osorio D. Estudio del poder predictivo del puntaje de admisión sobre el desempeño académico Universitario. Revista Latinoamericana de Estudios Educativos (Colombia). 2016. vol. 12, núm. 2, pp. 148-165.

Witten I, Frank E, Hall M, Pal C. Data Mining: Practical Machine Learning Tools and Techniques. 4er. ed. Massachusetts: Morgan Kauffman; 2019.

Zhou Z. Ensemble Methods. Foundations and Algorithms. Florida: Chapman & Hall/CRC. Machine Learning & Pattern Recognition Series; 2017.

Published

2022-01-31

How to Cite

Gamboa Unsihuay, J. E., & Salinas Flores, J. W. . (2022). Prediction of academic situation in undergraduate students using machine learning algorithms. Perfiles, 1(27), 4-10. https://doi.org/10.47187/perf.v1i27.142