banner
Hogar / Noticias / Uso del aprendizaje automático para predecir la retención de estudiantes de socio
Noticias

Uso del aprendizaje automático para predecir la retención de estudiantes de socio

Sep 02, 2023Sep 02, 2023

Scientific Reports volumen 13, Número de artículo: 5705 (2023) Citar este artículo

1912 Accesos

25 Altmetric

Detalles de métricas

La deserción estudiantil plantea un gran desafío para las instituciones académicas, los organismos de financiación y los estudiantes. Con el auge de Big Data y el análisis predictivo, un creciente cuerpo de trabajo en la investigación de la educación superior ha demostrado la viabilidad de predecir la deserción de los estudiantes a partir de datos de nivel macro fácilmente disponibles (por ejemplo, datos sociodemográficos o métricas de rendimiento temprano) y nivel micro ( por ejemplo, inicios de sesión en sistemas de gestión de aprendizaje). Sin embargo, el trabajo existente ha pasado por alto en gran medida un elemento crítico de nivel medio del éxito de los estudiantes que se sabe que impulsa la retención: la experiencia de los estudiantes en la universidad y su integración social dentro de su cohorte. En asociación con una aplicación móvil que facilita la comunicación entre los estudiantes y las universidades, recopilamos (1) datos institucionales a nivel macro y (2) datos de participación de comportamiento a nivel micro y meso (p. ej., la cantidad y calidad de las interacciones con los servicios universitarios y eventos, así como con otros estudiantes) para predecir la deserción después del primer semestre. Al analizar los registros de 50 095 estudiantes de cuatro universidades y colegios comunitarios de EE. UU., demostramos que los datos combinados de nivel macro y meso pueden predecir la deserción con altos niveles de desempeño predictivo (AUC promedio en modelos lineales y no lineales = 78 %; AUC máx. = 88%). Se encontró que las variables de participación conductual que representan la experiencia de los estudiantes en la universidad (p. ej., centralidad de la red, participación en la aplicación, calificaciones de eventos) agregan poder predictivo incremental más allá de las variables institucionales (p. ej., GPA o etnicidad). Finalmente, destacamos la generalización de nuestros resultados al mostrar que los modelos entrenados en una universidad pueden predecir la retención en otra universidad con niveles razonablemente altos de rendimiento predictivo.

En los EE. UU., solo alrededor del 60 % de los estudiantes de tiempo completo se gradúan de su programa1,2, y la mayoría de los que interrumpen sus estudios los abandonan durante el primer año3. ,5.

Abandonar la universidad sin un título tiene un impacto negativo en las finanzas y la salud mental de los estudiantes. Más del 65 % de los estudiantes universitarios de EE. UU. reciben préstamos estudiantiles para ayudarlos a pagar la universidad, lo que hace que incurran en grandes deudas durante el transcurso de sus estudios6. Según el Departamento de Educación de EE. UU., los estudiantes que solicitan un préstamo pero nunca se gradúan tienen tres veces más probabilidades de no pagar el préstamo que los estudiantes que se gradúan7. Esto no es sorprendente, dado que los estudiantes que abandonan la universidad sin un título, ganan un 66 % menos que los graduados universitarios con una licenciatura y es mucho más probable que estén desempleados2. Además de las pérdidas financieras, la sensación de fracaso a menudo afecta negativamente el bienestar y la salud mental de los estudiantes8.

Al mismo tiempo, la deserción estudiantil afecta negativamente a las universidades y los organismos de financiación federal. Para las universidades, la deserción estudiantil resulta en una reducción de ingresos anual promedio de aproximadamente $16.5 mil millones por año a través de la pérdida de tasas de matrícula9,10. Del mismo modo, la deserción estudiantil desperdicia valiosos recursos proporcionados por los gobiernos estatales y federales. Por ejemplo, el Sistema Integrado de Datos de Educación Postsecundaria (IPEDS, por sus siglas en inglés) del Departamento de Educación de EE. UU. muestra que entre 2003 y 2008, los gobiernos estatal y federal en conjunto proporcionaron más de $9 mil millones en subvenciones y subsidios a los estudiantes que no regresaron a la institución en la que estaban matriculados. por segundo año11.

Dados los altos costos de la deserción, la capacidad de predecir los estudiantes en riesgo y brindarles apoyo adicional es fundamental12,13. Como la mayoría de las deserciones ocurren durante el primer año14, dichas predicciones son más valiosas si pueden identificar a los estudiantes en riesgo lo antes posible13,15,16. Cuanto antes se pueda identificar a los estudiantes que podrían tener dificultades, mayores serán las posibilidades de que las intervenciones destinadas a protegerlos para que no se atrasen gradualmente, y eventualmente interrumpan sus estudios, sean efectivas17,18.

Investigaciones anteriores han identificado varios predictores de la retención de estudiantes, incluido el rendimiento académico previo, los factores demográficos y socioeconómicos y la integración social de un estudiante en su institución de origen19,20,21,22,23.

El rendimiento académico previo (p. ej., GPA de la escuela secundaria, puntajes de SAT y ACT o GPA de la universidad) ha sido identificado como uno de los predictores más consistentes de la retención de estudiantes: los estudiantes que tienen más éxito académico tienen menos probabilidades de abandonar la escuela17,21,24,25 ,26,27,28,29. De manera similar, la investigación ha destacado el papel de las variables demográficas y socioeconómicas, incluida la edad, el género y el origen étnico12,19,25,27,30, así como el estado socioeconómico31 para predecir la probabilidad de persistencia de los estudiantes. Por ejemplo, las mujeres tienen más probabilidades de continuar sus estudios que los hombres12,30,32,33 mientras que los estudiantes blancos y asiáticos tienen más probabilidades de persistir que los estudiantes de otros grupos étnicos19,27,30. Además, se ha demostrado que el estatus socioeconómico y la situación financiera inmediata de un estudiante tienen un impacto en la retención. Es más probable que los estudiantes interrumpan sus estudios si son estudiantes de primera generación34,35,36 o experimentan altos niveles de dificultades financieras (por ejemplo, debido a préstamos estudiantiles o trabajando casi a tiempo completo para cubrir los gastos universitarios)37,38. Por el contrario, los estudiantes que reciben apoyo financiero que no tienen que devolver después de la graduación tienen más probabilidades de completar su título39,40.

Si bien la mayoría de los predictores de retención de estudiantes descritos son características intrapersonales relativamente estables y, a menudo, difíciles o costosas de cambiar, la investigación también apunta a un pilar de retención más maleable: la experiencia de los estudiantes en la universidad. En particular, la medida en que se integran y socializan con éxito en la institución16,22,41,42. Como señala Bean (2005), "pocos negarían que la vida social de los estudiantes universitarios y sus intercambios con otros dentro y fuera de la institución son importantes en las decisiones de retención" (p. 227)41. El grado en que un estudiante está socialmente integrado y arraigado en su institución se ha estudiado de varias maneras, relacionando la retención con el desarrollo de amistades con compañeros43, la posición del estudiante en las redes sociales16,29, la experiencia de conexión social44 y sentido de pertenencia42,45,46. En conjunto, estos estudios sugieren que las interacciones con los compañeros, así como con el profesorado y el personal, por ejemplo, a través de la participación en actividades del campus, la pertenencia a organizaciones y la búsqueda de actividades extracurriculares, ayudan a los estudiantes a integrarse mejor en la vida universitaria44,47. Por el contrario, se ha demostrado que la falta de integración social resultante de los desplazamientos (es decir, no vivir en el campus con otros estudiantes) tiene un impacto negativo en las posibilidades de un estudiante de completar su título48,49,50,51. En resumen, cuanto más fuerte esté un estudiante y se sienta integrado en la comunidad universitaria, especialmente en su primer año, es menos probable que abandone los estudios42,52.

Una gran parte de la investigación sobre la deserción de estudiantes se ha centrado en comprender y explicar los factores que impulsan la retención de estudiantes. Sin embargo, junto con el auge de los métodos computacionales y los modelos predictivos en las ciencias sociales53,54,55, los investigadores y profesionales de la educación han comenzado a explorar la viabilidad y el valor de los enfoques basados ​​en datos para respaldar la toma de decisiones institucionales y la eficacia educativa (para obtener excelentes resúmenes de la campo en crecimiento ver 56,57). En línea con esta tendencia más amplia, un creciente cuerpo de trabajo ha demostrado el potencial de predecir la deserción de los estudiantes con la ayuda del aprendizaje automático. A diferencia de los enfoques inferenciales tradicionales, los enfoques de aprendizaje automático se ocupan predominantemente del rendimiento predictivo (es decir, la capacidad de pronosticar con precisión un comportamiento que aún no ha ocurrido)54. En el contexto de la retención de estudiantes esto significa: ¿Con qué precisión podemos predecir si un estudiante va a completar o interrumpir sus estudios (en el futuro) analizando sus características demográficas y socioeconómicas, su rendimiento académico pasado y actual, así como su arraigo actual en el sistema universitario y la cultura?

Haciéndose eco de la declaración de la Academia Nacional de Educación (2017) de que "en el contexto educativo, los grandes datos suelen tomar la forma de datos administrativos y datos del proceso de aprendizaje, y cada uno ofrece su propia promesa para la investigación educativa" (p.4)58, la gran cantidad de la mayoría de los estudios existentes se han centrado en la predicción de la retención de estudiantes a partir de características demográficas y socioeconómicas, así como del historial académico y el rendimiento actual de los estudiantes13,59,60,61,62,63,64,65,66. En un estudio reciente, Aulck y sus colegas entrenaron un modelo con los datos administrativos de más de 66 000 estudiantes de primer año matriculados en una universidad pública de los EE. predecir si se volverían a matricular en el segundo año y eventualmente se graduarían59. Específicamente, utilizaron una variedad de modelos de aprendizaje automático lineales y no lineales (p. ej., regresión logística regularizada, k-vecino más cercano, bosque aleatorio, máquina de vectores de soporte y árboles potenciados por gradientes) para predecir la retención fuera de la muestra utilizando un estándar procedimientos de validación cruzada. Su modelo pudo predecir las deserciones con una precisión del 88 % y la graduación con una precisión del 81 % (donde el 50 % es probabilidad).

Si bien el cuerpo de trabajo existente proporciona evidencia sólida del potencial de los modelos predictivos para identificar a los estudiantes en riesgo, se basa en conjuntos similares de datos a nivel macro (p. ej., datos institucionales, rendimiento académico) o datos a nivel micro (p. ej., datos de flujo de clics). Casi completamente ausente de esta investigación hay datos sobre la experiencia diaria de los estudiantes y el compromiso tanto con otros estudiantes como con la universidad misma (nivel meso). Aunque ha habido una pequeña cantidad de estudios que intentan capturar parte de esta experiencia al inferir las redes sociales de las transacciones con tarjetas inteligentes que realizaron los estudiantes en el mismo tiempo y lugar16 o las métricas de compromiso con un curso en línea abierto67, ninguno de los trabajos existentes ha ofreció una visión más holística y completa de la experiencia diaria de los estudiantes. Una posible explicación de esta brecha es que la información sobre las interacciones sociales de los estudiantes con sus compañeros de clase o su compromiso diario con los servicios y eventos universitarios es difícil de rastrear. Si bien las universidades a menudo tienen acceso a variables demográficas o socioeconómicas a través de sus Sistemas de información estudiantil (SIS) y pueden rastrear fácilmente su rendimiento académico, la mayoría de las universidades no tienen una manera fácil de capturar el compromiso más profundo de los estudiantes con el sistema.

En esta investigación, nos asociamos con una empresa de software educativo, READY Education, que ofrece una plataforma de interacción virtual integral en forma de aplicación para teléfonos inteligentes para facilitar la comunicación entre estudiantes, profesores y personal. Los estudiantes reciben información y anuncios relevantes, pueden administrar sus actividades universitarias e interactuar con sus compañeros de varias maneras. Por ejemplo, la aplicación ofrece una experiencia de redes sociales como Facebook, que incluye mensajes privados, grupos, muros públicos y amistades. Además, captura el compromiso de los estudiantes con la universidad y les pide que se registren en los eventos (p. ej., orientación, eventos del campus y servicios para estudiantes) mediante la función de código QR y les pide que califiquen su experiencia después (consulte Métodos para obtener más detalles sobre las funciones). extrajimos de estos datos). Como resultado, la aplicación READY Education nos permite observar un conjunto completo de información sobre los estudiantes que incluye (i) datos institucionales (es decir, características demográficas y socioeconómicas, así como el rendimiento académico) y (ii) su idiosincrasia. experiencia en la universidad capturada por sus interacciones diarias con otros estudiantes y los servicios/eventos de la universidad. La combinación de las dos fuentes de datos captura el perfil de un estudiante de manera más holística y permite considerar posibles interacciones entre los conjuntos de variables. Por ejemplo, estar estrechamente integrado en una red de apoyo social de amigos podría ser más importante para la retención entre los estudiantes de primera generación que podrían no recibir el mismo nivel de apoyo académico o aprender sobre normas y reglas académicas implícitas de sus padres.

Sobre la base de este conjunto de datos único, utilizamos modelos de aprendizaje automático para predecir la retención de estudiantes (es decir, la deserción) a partir de datos de compromiso institucional y de comportamiento. Dado el deseo de identificar a los estudiantes en riesgo lo antes posible, solo usamos la información recopilada en el primer semestre de los estudiantes para predecir si el estudiante abandonó los estudios en algún momento durante su programa. Para validar y examinar minuciosamente nuestro enfoque analítico, generar conocimientos para posibles intervenciones y probar la generalización de nuestros modelos predictivos en diferentes universidades, investigamos las siguientes tres preguntas de investigación:

¿Con qué precisión podemos predecir la probabilidad de que un estudiante interrumpa sus estudios usando información del primer término de sus estudios (es decir, datos institucionales, datos de compromiso conductual y una combinación de ambos)?

¿Qué características son las más predictivas de la retención de estudiantes?

¿Qué tan bien se generalizan los modelos predictivos entre universidades (es decir, qué tan bien podemos predecir la retención de estudiantes de una universidad si usamos el modelo entrenado con datos de otra universidad y viceversa)?

Analizamos datos no identificados de cuatro instituciones con un total de 50 095 estudiantes (mín. = 476, máx. = 45 062). Todos los estudiantes dieron su consentimiento informado para el uso de los datos anónimos por parte de READY Education y los socios de investigación. Todos los protocolos experimentales fueron aprobados por la Junta de Ética de la Universidad de Columbia, y todos los métodos llevados a cabo estuvieron de acuerdo con las pautas y regulaciones de la Junta. Los datos provienen de dos fuentes: (a) datos institucionales y (b) datos de participación conductual. Los datos institucionales recopilados por las universidades contienen datos sociodemográficos (p. ej., género, etnia), información general del estudio (p. ej., plazo de admisión, programa de estudio), información financiera (p. ej., elegibilidad para el examen pell), puntajes de rendimiento académico de los estudiantes (p. ej., GPA, ACT), así como el estado de retención. Este último indicó si los estudiantes continuaron o abandonaron los estudios y sirve como variable de resultado. Como diferentes universidades recopilan información diferente sobre sus estudiantes, el alcance de los datos institucionales varió entre universidades. La Tabla 1 proporciona un resumen descriptivo de las características sociodemográficas más importantes para cada una de las cuatro universidades. Además, proporciona una descripción general descriptiva del uso de la aplicación, incluida la cantidad promedio de registros por estudiante, la cantidad total de sesiones y registros, así como el porcentaje de estudiantes en una cohorte que usa la aplicación (es decir, cobertura). La amplia cobertura de estudiantes que utilizan la aplicación, que oscila entre el 70 y el 98 %, da como resultado una muestra ampliamente representativa de la población estudiantil en las respectivas universidades.

En particular, las Universidades 1 a 3 son campus universitarios tradicionales, mientras que la Universidad 4 es una combinación de 16 colegios comunitarios diferentes. Dado que existe una heterogeneidad considerable entre los campus, se espera a priori que las precisiones predictivas para la Universidad 4 sean más bajas que las observadas para las universidades 1-3 (y en parte hablan de la generalización de los hallazgos). La decisión de incluir a la Universidad 4 como una sola entidad se basó en el hecho de que la separación de las 16 universidades habría resultado en una sobrerrepresentación de las universidades comunitarias que comparten características similares, lo que inflaría artificialmente las precisiones entre universidades observadas. Dadas estas limitaciones (y el hecho de que la propia Universidad colapsó los campus universitarios para muchos de sus informes internos), decidimos analizarlo como una sola unidad, reconociendo que este enfoque trae sus propias limitaciones.

Los datos de participación del comportamiento se generaron a través de la aplicación (consulte la Tabla 1 para ver las ventanas de recopilación de datos específicas en cada universidad). Los datos de participación del comportamiento estaban disponibles en forma de registros de eventos con marca de tiempo (es decir, cada fila en los datos sin procesar representaba un evento registrado, como una pestaña en la que se hizo clic, un comentario publicado, un mensaje enviado). Cada registro podría asignarse a un estudiante en particular a través de un identificador único y anónimo. En las cuatro universidades, los datos de participación contenían 7 477 630 sesiones (media = 1 869 408, SD = 3 329 852) y 17 032 633 registros (media = 4 258 158, SD = 6 963 613) en todas las universidades. Para obtener una descripción general completa de todas las métricas de participación del comportamiento, incluida una descripción, consulte la Tabla S1 en los Materiales complementarios.

Como primer paso, limpiamos los datos institucionales y de la aplicación. Para los datos institucionales, excluimos a los estudiantes que no usaban la aplicación y, por lo tanto, no se les podía asignar un identificador único. Además, excluimos a los estudiantes sin plazo de admisión para garantizar que solo estamos observando el primer semestre de los estudiantes. Por último, eliminamos las entradas duplicadas resultantes de la doble inscripción en diferentes programas. Para los datos de uso de la aplicación, inspeccionamos visualmente las variables en nuestro conjunto de datos en busca de valores atípicos que pudieran derivarse de problemas técnicos. Preprocesamos los datos que reflejaban hacer clic en la aplicación, denominados "clicked_[...]" y "viewed_[...]" (consulte la Tabla S1 en los Materiales complementarios). Una pequeña cantidad de observaciones mostró un número elevado poco realista de clics en la misma pestaña en un período muy corto, lo que probablemente sea un reflejo de que un estudiante hace clic repetidamente en una pestaña debido al largo tiempo de carga u otros problemas técnicos. Para evitar el sobremuestreo de estos comportamientos, eliminamos todos los clics del mismo tipo realizados por la misma persona con menos de un minuto de diferencia.

Extrajimos hasta 462 características para cada universidad en dos categorías amplias: (i) características institucionales y (ii) características de compromiso, usando evidencia de investigaciones previas como punto de referencia (consulte la Tabla S2 en los Materiales complementarios para obtener una descripción general completa de todas las características y su disponibilidad para cada una de las universidades). Las características institucionales contienen información demográfica, socioeconómica y académica de los estudiantes. Las características de compromiso representan el comportamiento de los estudiantes durante su primer período de estudios. Se pueden dividir en participación de la aplicación y participación de la comunidad. Las funciones de interacción con la aplicación representan el comportamiento de los estudiantes en relación con el uso de la aplicación, por ejemplo, si los estudiantes usaron la aplicación antes del comienzo del semestre, con qué frecuencia hicieron clic en las notificaciones o en las pestañas de la comunidad, o si el uso de la aplicación aumentó en el transcurso del semestre. el semestre. Las funciones de participación comunitaria reflejan el comportamiento social y la interacción con otros, por ejemplo, la cantidad de mensajes enviados, publicaciones y comentarios realizados, eventos visitados o la posición de un estudiante en la red según se deduce de amistades y mensajes directos. Es importante destacar que muchas de las características de nuestro conjunto de datos estarán interrelacionadas. Por ejemplo, vivir en un alojamiento universitario podría indicar niveles más altos de estatus socioeconómico, pero también aumentar la probabilidad de que los estudiantes asistan a eventos del campus y se conecten con otros estudiantes que viven en el campus. Si bien las intercorrelaciones entre los predictores son un desafío con las técnicas estadísticas inferenciales estándar, como los análisis de regresión, los métodos que aplicamos en este documento pueden dar cuenta de una gran cantidad de predictores correlacionados.

Las características institucionales se derivaron directamente de los datos registrados por las instituciones. Como se señaló anteriormente, no todas las funciones estaban disponibles para todas las universidades, lo que resultó en conjuntos de funciones ligeramente diferentes entre universidades. Las funciones de participación se extrajeron de los datos de uso de la aplicación. Como nos enfocamos en una predicción temprana de la deserción, restringimos los datos a los registros de eventos que se registraron en el primer trimestre de los respectivos estudiantes. En particular, los datos capturan el compromiso de los estudiantes como una serie de eventos con marca de tiempo, lo que ofrece información detallada sobre su experiencia diaria. Por razones de simplicidad e interpretabilidad (consulte la pregunta de investigación 2), colapsamos los datos en una sola entrada para cada estudiante. Específicamente, describimos la experiencia general de un estudiante durante el primer semestre mediante el cálculo de medidas de distribución para cada estudiante, como la media aritmética, la desviación estándar, la curtosis, la asimetría y los valores de suma. Por ejemplo, calculamos cuántos mensajes diarios envió o recibió un estudiante en particular durante su primer semestre, o a cuántos eventos del campus asistió en total. Sin embargo, también explicamos los cambios en el comportamiento de un estudiante a lo largo del tiempo mediante el cálculo de características más complejas como la entropía (por ejemplo, la medida en que una persona tiene contacto frecuente con pocas personas o el mismo grado de contacto con muchas personas) y el desarrollo de comportamientos específicos a lo largo del tiempo medidos por la pendiente de los análisis de regresión, así como características que representan la regularidad del comportamiento (por ejemplo, la desviación de tiempo entre el envío de mensajes). En general, el conjunto de funciones tenía como objetivo describir el compromiso general de un estudiante con los recursos del campus y otros estudiantes durante el primer semestre, así como también los cambios en el compromiso con el tiempo. Finalmente, extrajimos algunas de las características por separado para los días de semana y los fines de semana para dar cuenta de las diferencias y similitudes en las actividades de los estudiantes durante la semana y el fin de semana. Por ejemplo, poca interacción social entre semana podría predecir la retención de manera diferente a la poca interacción social durante el fin de semana.

Limpiamos aún más los datos descartando a los participantes para los que faltaba el estado de retención y aquellos en los que el 95 % o más de los valores eran cero o faltaban. Además, las características se eliminaron si mostraban poca o ninguna variación entre los participantes, lo que las hace esencialmente sin sentido en una tarea de predicción. Específicamente, excluimos las características numéricas que mostraron los mismos valores para más del 90 % de las observaciones y las características categóricas que mostraron el mismo valor para todas las observaciones.

Además de estos procedimientos generales de preprocesamiento, integramos pasos de preprocesamiento adicionales en el remuestreo antes de entrenar los modelos para evitar una sobreestimación del rendimiento del modelo68. Para evitar problemas con las características categóricas que ocurren cuando hay menos niveles en la prueba que en los datos de entrenamiento, primero eliminamos las categorías que no ocurrían en los datos de entrenamiento. En segundo lugar, eliminamos las características categóricas constantes que contenían un solo valor (y, por lo tanto, sin variación). En tercer lugar, imputamos los valores faltantes utilizando los siguientes procedimientos: Las características categóricas se imputaron con la moda. Siguiendo los enfoques comúnmente utilizados para tratar con los datos faltantes, la imputación de las características numéricas varió entre los alumnos. Para la red elástica, imputamos esas características con la mediana. Para el bosque aleatorio, usamos el doble del máximo para dar a los valores faltantes un significado distinto que permitiría al modelo aprovechar esta información. Por último, utilizamos la "Técnica de sobremuestreo de minorías sintéticas" (SMOTE) para crear ejemplos artificiales para la clase minoritaria en los datos de entrenamiento69. La única excepción fue la Universidad 4, que siguió un procedimiento diferente debido al gran tamaño de la muestra y la potencia informática estimada para implementar SMOTE. En lugar de sobremuestrear los casos minoritarios, redujimos la muestra de los casos mayoritarios de modo que la clase positiva y negativa estuviera equilibrada. Esto se hizo para abordar el desequilibrio de clase causado por la mayoría de los estudiantes que continúan sus estudios en lugar de abandonarlos12.

Predijimos el estado de retención (1 = abandonó, 0 = continuó) en una tarea de predicción binaria, con tres conjuntos de características: (1) características institucionales (2) características de participación y (3) un conjunto combinado de todas las características. Para garantizar la solidez de nuestras predicciones y para identificar el modelo que mejor se adapta al contexto de predicción actual54, comparamos un clasificador lineal (red elástica; implementado en glmnet 4.1–4)70,71 y un clasificador no lineal (bosque aleatorio; implementado en randomForest 4.7–1)72,73. Ambos modelos son particularmente adecuados para nuestro contexto de predicción y son opciones comunes en las ciencias sociales computacionales. Es decir, los modelos de regresión lineal o logística simple no son adecuados para trabajar con conjuntos de datos que tienen muchos predictores intercorrelacionados (en nuestro caso, un total de 462 predictores, muchos de los cuales están altamente correlacionados) debido al alto riesgo de sobreajuste. Tanto el algoritmo de red elástica como el de bosque aleatorio pueden utilizar de manera efectiva grandes conjuntos de funciones al tiempo que reducen el riesgo de sobreajuste. Evaluamos el desempeño de nuestros seis modelos para cada escuela (2 algoritmos y 3 conjuntos de funciones), utilizando experimentos de referencia fuera de la muestra que estiman el desempeño predictivo y lo comparan con un modelo de referencia común no informativo. La línea de base representa un modelo nulo que no incluye ninguna característica, sino que siempre predice la clase mayoritaria, que en nuestras muestras significa "continuación".74 A continuación, proporcionamos más detalles sobre los algoritmos específicos (es decir, red elástica y bosque aleatorio). ), el procedimiento de validación cruzada y las métricas de rendimiento que utilizamos para la evaluación del modelo.

La red elástica es un enfoque de regresión regularizado que combina las ventajas de la regresión de cresta75 con las de LASSO76 y está motivado por la necesidad de manejar grandes conjuntos de características. La red elástica reduce los coeficientes beta de características que agregan poco valor predictivo (p. ej., intercorrelacionados, poca varianza). Además, la red elástica puede eliminar variables del modelo de manera efectiva al reducir los respectivos coeficientes beta a cero70. A diferencia de los modelos de regresión clásicos, la red elástica no busca optimizar la suma de mínimos cuadrados, sino que incluye dos términos de penalización (L1, L2) que incentivan al modelo a reducir el valor beta estimado de características que no agregan información al modelo. Al combinar las penalizaciones L1 (la suma de los valores absolutos de los coeficientes) y L2 (la suma de los valores al cuadrado de los coeficientes), la red elástica aborda las limitaciones de modelos lineales alternativos como la regresión LASSO (no capaz de manejar la multicolinealidad) y Ridge Regression (puede que no produzca soluciones lo suficientemente dispersas)70.

Formalmente, siguiendo a Hastie & Qian (2016), la ecuación modelo de red elástica para problemas de clasificación binaria se puede escribir de la siguiente manera77. Supongamos que la variable de respuesta toma valores en G = {0,1}, yi se denota como I(gi = 1), la fórmula del modelo se escribe como

Después de aplicar la transformación log-odds, la fórmula del modelo se puede escribir como

La función objetivo para la regresión logística es la verosimilitud logarítmica binomial negativa penalizada

donde λ es el parámetro de regularización que controla la fuerza general de la regularización, α es el parámetro de mezcla que controla el equilibrio entre la regularización L1 y L2 con valores α más cercanos a cero para generar modelos más dispersos (regresión de lazo α = 1, regresión de cresta α = 0). β representa los coeficientes del modelo de regresión, ||β||1 es la norma L1 de los coeficientes (la suma de los valores absolutos de los coeficientes), ||β||2 es la norma L2 de los coeficientes (la suma de los valores al cuadrado de los coeficientes).

El enfoque de regresión regularizado es especialmente relevante para nuestro modelo porque muchas de las funciones de participación basadas en la aplicación están altamente correlacionadas (p. ej., la cantidad de clics está relacionada con la cantidad de actividades registradas en la aplicación). Además, preferimos el algoritmo de red elástica sobre alternativas más complejas, porque los coeficientes beta regularizados se pueden interpretar como la importancia de la característica, lo que permite conocer qué predictores son más informativos sobre la deserción universitaria78,79.

Los modelos de bosques aleatorios son un método de aprendizaje de conjunto ampliamente utilizado que genera muchos árboles de decisión en bolsas y decorrelacionados para llegar a una predicción "colectiva" del resultado (es decir, el resultado elegido por la mayoría de los árboles en un problema de clasificación)72. Los árboles de decisión individuales dividen recursivamente el espacio de características (reglas para distinguir clases) con el objetivo de separar las diferentes clases del criterio (abandono vs. permanencia en nuestro caso). Para obtener una descripción detallada de cómo operan los árboles de decisión individuales y se traducen en un bosque aleatorio, consulte Pargent, Schoedel & Stachl80.

A diferencia de la red elástica, los modelos de bosque aleatorio pueden dar cuenta de asociaciones no lineales entre características y criterios e incluir automáticamente interacciones multidimensionales entre características. Cada árbol de decisión en un bosque aleatorio considera un subconjunto aleatorio de casos y características de arranque, lo que aumenta la varianza de las predicciones entre los árboles y la solidez de la predicción general. Para la división en cada nodo de cada árbol, se utiliza un subconjunto aleatorio de características (hiperparámetro mtry que optimizamos en nuestros modelos) extrayendo aleatoriamente del conjunto total. Para cada división, se comparan todas las combinaciones de variables de división y puntos de división, eligiendo el modelo las divisiones que optimizan la separación entre clases72.

El algoritmo de bosque aleatorio se puede describir formalmente de la siguiente manera (textualmente de Hastie et al., 2016, p. 588):

Para b = 1 a B:

Extraiga una muestra de arranque de tamaño N de los datos de entrenamiento.

Haga crecer un árbol de decisión para los datos de arranque, repitiendo recursivamente los siguientes pasos para cada nodo terminal del árbol, hasta alcanzar el tamaño mínimo de nodo.

Seleccione m variables al azar de las p variables.

Elija la mejor variable/punto de división entre los m según la función de pérdida (en nuestro caso, disminución de la impureza de Gini)

Divida el nodo en dos nodos secundarios.

Salida del conjunto de árboles.

Luego se pueden hacer nuevas predicciones generando una predicción para cada árbol y agregando los resultados usando el voto mayoritario.

La agregación de predicciones entre árboles en bosques aleatorios mejora el rendimiento de la predicción en comparación con los árboles de decisión individuales, ya que puede beneficiarse de la varianza de los árboles y reducirla en gran medida para llegar a una única predicción72,81.

Evaluamos el rendimiento de nuestros modelos predictivos utilizando un enfoque de validación fuera de la muestra. La idea detrás de la validación fuera de la muestra es aumentar la probabilidad de que un modelo prediga con precisión la deserción de los estudiantes en datos nuevos (por ejemplo, estudiantes nuevos) mediante el uso de diferentes conjuntos de datos al entrenar y evaluar el modelo. Una técnica eficiente y comúnmente utilizada para la validación fuera de la muestra es ajustar repetidamente (cf. entrenamiento) y evaluar (cf. pruebas) modelos en partes no superpuestas de los mismos conjuntos de datos y combinar las estimaciones individuales en múltiples iteraciones. Este procedimiento, conocido como validación cruzada, también se puede utilizar para la optimización del modelo (p. ej., ajuste de hiperparámetros, preprocesamiento, selección de variables), mediante la evaluación repetida de diferentes configuraciones para un rendimiento predictivo óptimo. Cuando se combinan ambos enfoques, los pasos de evaluación y optimización deben realizarse de forma anidada para garantizar una separación estricta de los datos de entrenamiento y prueba para una estimación realista del rendimiento fuera de la muestra. La idea general es emular todos los pasos de modelado en cada pliegue del remuestreo como si fuera un solo modelo dentro de la muestra. Aquí, utilizamos la validación cruzada anidada para estimar el rendimiento predictivo de nuestros modelos, optimizar los hiperparámetros del modelo y preprocesar los datos. Ilustramos el procedimiento en la figura 1.

Procedimiento esquemático de validación cruzada para predicciones fuera de la muestra. La figura muestra una validación cruzada de diez veces en el ciclo externo que se utiliza para estimar el rendimiento general del modelo al comparar los resultados previstos para cada estudiante en el conjunto de pruebas no visto anteriormente con sus resultados reales. Dentro de cada uno de los 10 bucles externos, se utiliza una validación cruzada quíntuple en el bucle interno para ajustar con precisión los hiperparámetros del modelo mediante la evaluación de diferentes configuraciones del modelo.

El procedimiento de validación cruzada funciona de la siguiente manera: digamos que tenemos un conjunto de datos con 1000 estudiantes. En un primer paso, el conjunto de datos se divide en diez submuestras diferentes, cada una con datos de 100 estudiantes. En la primera ronda, nueve de estas submuestras se usan para entrenamiento (es decir, ajuste del modelo para estimar parámetros, recuadros verdes). Eso significa que los datos de los primeros 900 estudiantes se incluirán en el entrenamiento del modelo para relacionar las diferentes características con el resultado de retención. Una vez que se completa el entrenamiento, el rendimiento del modelo se puede evaluar en los datos de los 100 estudiantes restantes (es decir, conjunto de datos de prueba, cajas azules). Para cada alumno, el resultado real (retención o interrupción, cifras grises y negras) se compara con el resultado previsto (retención o interrupción, cifras grises y negras). Esta comparación permite el cálculo de varias métricas de rendimiento (consulte la sección "Métricas de rendimiento" a continuación para obtener más detalles). En contraste con la aplicación de estadísticas inferenciales tradicionales, el proceso de evaluación en modelos predictivos separa los datos usados ​​para entrenar un modelo de los datos usados ​​para evaluar estas asociaciones. Por lo tanto, cualquier sobreajuste que ocurra en la etapa de entrenamiento (p. ej., usando los grados de libertad del investigador o debido a las relaciones de aprendizaje del modelo que son exclusivas de los datos de entrenamiento), perjudica el desempeño predictivo en la etapa de prueba. Para aumentar aún más la solidez de los hallazgos y aprovechar todo el conjunto de datos, este proceso se repite para las 10 submuestras, de modo que cada submuestra se usa nueve veces para entrenamiento y una para prueba. Finalmente, las estimaciones obtenidas de esas diez iteraciones se agregan para llegar a una estimación cruzada validada del rendimiento del modelo. Este procedimiento de validación cruzada de diez veces se denomina "bucle externo".

Además del lazo exterior, nuestros modelos también contienen un "lazo interior". El bucle interno consta de un procedimiento adicional de validación cruzada que se utiliza para identificar la configuración ideal de hiperparámetros (consulte la sección "Ajuste de hiperparámetros" a continuación). Es decir, en cada una de las diez iteraciones del bucle externo, la muestra de entrenamiento se divide en un conjunto de entrenamiento y prueba para identificar las mejores constelaciones de parámetros antes de la evaluación del modelo en el bucle externo. Utilizamos una validación cruzada quíntuple en el ciclo interno. Todos los scripts de análisis para los pasos de preprocesamiento y modelado están disponibles en OSF (https://osf.io/bhaqp/?view_only=629696d6b2854aa9834d5745425cdbbc).

Evaluamos el rendimiento del modelo en función de cuatro métricas diferentes. Nuestra métrica principal para el rendimiento del modelo es AUC (área bajo la curva de características operativas recibidas). AUC se usa comúnmente para evaluar el rendimiento de un modelo sobre una línea de base de probabilidad del 50 %, y puede oscilar entre 0 y 1. La métrica AUC captura el área bajo la curva característica operativa del receptor (ROC), que traza la tasa positiva verdadera (TPR o recordar, es decir, el porcentaje de desertores clasificados correctamente entre todos los estudiantes que realmente abandonaron), contra la tasa de falsos positivos (FPR, es decir, el porcentaje de estudiantes clasificados erróneamente como desertores entre todos los estudiantes que realmente continuaron). Cuando el AUC es 0,5, el rendimiento predictivo del modelo es igual al azar o al lanzamiento de una moneda. Cuanto más cerca de 1, mayor es el rendimiento predictivo del modelo para distinguir entre los estudiantes que continuaron y los que abandonaron.

Además, informamos el puntaje F1, que varía entre 0 y 182. El puntaje F1 se basa en el valor predictivo positivo del modelo (o precisión, es decir, el porcentaje de abandonos clasificados correctamente entre todos los estudiantes que se predijo que abandonaron) también como el TPR del modelo. Por lo tanto, una puntuación F1 alta indica que hay pocos falsos positivos y falsos negativos.

Dado el contexto específico, también informamos el TPR y las tasas negativas verdaderas (TNR, es decir, el porcentaje de estudiantes que se predijo que continuarían entre todos los estudiantes que realmente continuaron). Dependiendo de su objetivo, las universidades pueden poner más énfasis en optimizar el TPR para asegurarse de que no se pase por alto a ningún estudiante que esté en riesgo de abandonar los estudios o en optimizar el TNR para ahorrar recursos y asegurar que los estudiantes no sufran una carga excesiva. En particular, en la mayoría de los casos, es probable que las universidades se esfuercen por lograr un equilibrio entre los dos, lo que se refleja en nuestra medida principal de AUC. Todas las métricas de rendimiento notificadas representan el rendimiento predictivo medio en los 10 pliegues de validación cruzada del bucle exterior54.

Utilizamos una búsqueda aleatoria con 50 iteraciones y una validación cruzada quíntuple para el ajuste de hiperparámetros en el bucle interno de nuestra validación cruzada. El algoritmo de búsqueda aleatoria ajusta modelos con configuraciones de hiperparámetros seleccionados al azar de un espacio de hiperparámetros previamente definido y luego elige el modelo que muestra el mejor rendimiento generalizado promediado sobre los cinco pliegues de validación cruzada. La mejor configuración de hiperparámetros se usa para entrenar en el bucle de remuestreo externo para evaluar el rendimiento del modelo.

Para el clasificador de red elástica, ajustamos el parámetro de regularización lambda, la regla de decisión utilizada para elegir lambda y el parámetro de relación L1. El espacio de búsqueda de lambda abarcó los 100 valores predeterminados de glmnet71. El espacio de reglas de decisión para lambda incluía lambda.min, que elige el valor de lambda que da como resultado el error de validación cruzada medio mínimo, y lambda.1se, que elige el valor de lambda que da como resultado el modelo más regularizado, de modo que la cruz- el error de validación permanece dentro de un error estándar del mínimo. El espacio de búsqueda para el parámetro de relación L1 incluía el rango de valores entre 0 (cresta) y 1 (lazo). Para el clasificador de bosque aleatorio, ajustamos la cantidad de características seleccionadas para cada división dentro de un árbol de decisión (mtry) y el tamaño mínimo de nodo (es decir, cuántos casos deben quedar en los nodos finales resultantes del árbol). El espacio de búsqueda para el número de características de entrada por árbol de decisión se estableció en un rango de 1 a p, donde p representa la dimensionalidad del espacio de características. El espacio de búsqueda para el tamaño mínimo de nodo se estableció en un rango de 1 a 5. Además, para ambos modelos, ajustamos la tasa de sobremuestreo y el número de vecinos utilizados para generar nuevas muestras utilizadas por el algoritmo SMOTE. La tasa de sobremuestreo se estableció en un rango de 2 a 15 y el número de vecinos más cercanos se estableció en un rango de 1 a 10.

La Figura 2 muestra las puntuaciones de AUC (eje Y) en las diferentes universidades (filas), separadas por los diferentes conjuntos de características (colores) y algoritmos predictivos (etiquetas del eje X). La figura muestra la distribución de las precisiones de AUC en los 10 pliegues de validación cruzada, junto con su media y desviación estándar. Las pruebas t independientes que utilizan las correcciones de Holm para comparaciones múltiples indican diferencias estadísticas en el rendimiento predictivo entre los diferentes modelos y conjuntos de funciones dentro de cada universidad. La Tabla 2 proporciona el rendimiento predictivo en las cuatro métricas.

Desempeño de AUC en las cuatro universidades para diferentes conjuntos de funciones y modelos.

En general, nuestros modelos mostraron altos niveles de precisión predictiva en universidades, modelos, conjuntos de funciones y métricas de rendimiento, superando significativamente la línea de base en todos los casos. La métrica de rendimiento principal AUC alcanzó un promedio del 73 % (donde el 50 % es probabilidad), con un máximo del 88 % para el modelo de bosque aleatorio y el conjunto completo de funciones en la Universidad 1. Tanto las funciones institucionales como las de participación contribuyeron significativamente al rendimiento predictivo , destacando el hecho de que la probabilidad de que un estudiante abandone los estudios depende tanto de sus características sociodemográficas más estables como de su experiencia de vida en el campus. En la mayoría de los casos, el modelo conjunto (es decir, la combinación de características institucionales y de compromiso) se desempeñó mejor que cada uno de los modelos individuales por separado. Finalmente, los modelos de bosque aleatorio produjeron niveles más altos de desempeño predictivo que la red elástica en la mayoría de los casos (red elástica AUC promedio = 70 %, bosque aleatorio AUC = 75 %), lo que sugiere que es probable que las características interactúen entre sí para predecir los resultados de los estudiantes. retención y no siempre puede estar relacionado linealmente con el resultado.

Para proporcionar información sobre las relaciones subyacentes entre la retención de estudiantes y las características sociodemográficas y de comportamiento, examinamos dos indicadores de la importancia de las características que ofrecen información única. Primero, calculamos las correlaciones de orden cero entre las características y el resultado para cada una de las cuatro universidades. Elegimos correlaciones de orden cero sobre coeficientes netos elásticos ya que representan las relaciones inalteradas por el procedimiento de regularización del modelo (es decir, la relación entre una característica y el resultado se muestra independientemente de la importancia de las otras características en el modelo). Para mejorar la solidez de nuestros hallazgos, solo incluimos las variables que superaron el umbral para la inclusión de datos en nuestros modelos y tenían menos del 50 % de los datos imputados. El tercio superior de la Tabla 3 muestra las 10 características más importantes (es decir, la correlación absoluta más alta con la retención). El signo entre paréntesis indica la dirección de los efectos con (+) indicando un factor de protección y (-) indicando un factor de riesgo. Las características que aparecieron en el top 10 para más de 1 universidad están resaltadas en negrita.

En segundo lugar, calculamos las puntuaciones de importancia de las variables de permutación para los modelos de red elástica y bosque aleatorio. Para el modelo de red elástica, la importancia de la característica se informa como el coeficiente del modelo después de reducir los coeficientes según su poder predictivo incremental. En comparación con la correlación de orden cero, los coeficientes netos elásticos identifican las características que tienen la varianza única más fuerte. Para los modelos de bosque aleatorio, la importancia de la característica se informa como una métrica agnóstica del modelo que estima la importancia de una característica mediante la observación de la caída en el rendimiento predictivo del modelo cuando la asociación real entre la característica y el resultado se rompe mediante la combinación aleatoria de observaciones72,83. Una característica se considera importante si mezclar sus valores aumenta el error del modelo (y, por lo tanto, reduce el rendimiento predictivo del modelo). A diferencia de los coeficientes del modelo de red elástica, las puntuaciones de importancia de la característica de permutación no están dirigidas y no brindan información sobre la naturaleza específica de la relación entre la característica y el resultado. Sin embargo, tienen en cuenta el hecho de que algunas funciones pueden no ser predictivas por sí mismas, pero aun así pueden resultar valiosas en el rendimiento general del modelo porque moderan el impacto de otras funciones. Por ejemplo, los estudiantes de minorías o de primera generación pueden beneficiarse más de estar integrados en una red social sólida que los estudiantes de la mayoría que no enfrentan las mismas barreras y es probable que tengan una red de apoyo externo más fuerte. La parte inferior de la Tabla 3 muestra las 10 características más importantes en los modelos de red elástica y de bosque aleatorio (es decir, la mayor importancia de la variable de permutación).

Respaldando los hallazgos informados en RQ1, las correlaciones de orden cero confirman que las características de participación institucional y de comportamiento juegan un papel importante en la predicción de la retención de estudiantes. En línea con el trabajo anterior, el desempeño de los estudiantes (medido por GPA o ACT) apareció repetidamente como uno de los predictores más importantes en universidades y modelos. Además, muchas de las funciones de participación (p. ej., servicios atendidos, centralidad de la red de mensajes de chat) están relacionadas con actividades sociales o funciones de red, lo que respalda la noción de que las conexiones sociales y el apoyo de un estudiante juegan un papel fundamental en la retención de estudiantes. Además, la medida en que los estudiantes se involucran positivamente con sus instituciones (p. ej., asistiendo a eventos y calificándolos altamente) parece jugar un papel fundamental en la prevención de la deserción.

Para probar la generalización de nuestros modelos entre universidades, usamos el modelo predictivo entrenado en una universidad (p. ej., Universidad 1) para predecir la retención de las tres universidades restantes (p. ej., Universidades 2–4). Las Figuras 3A,B muestran las AUC en todos los pares posibles, lo que indica qué universidad se usó para la capacitación (eje X) y cuál se usó para la prueba (eje Y; consulte la Figura S1 en el SI para ver los gráficos que ilustran los hallazgos para F1, TNR y TPR).

Rendimiento (AUC promedio) de las predicciones entre universidades.

En general, observamos niveles razonablemente altos de rendimiento predictivo al aplicar un modelo entrenado en una universidad a los datos de otra. El AUC promedio observado fue del 63 % (tanto para la red elástica como para el bosque aleatorio), y el rendimiento predictivo más alto alcanzó el 74 % (entrenado en la Universidad 1, prediciendo la Universidad 2), solo 1 punto por debajo del rendimiento predictivo observado para la predicción del propio modelo de las universidades (entrenado en la Universidad 2, prediciendo la Universidad 2). Contrariamente a los hallazgos en RQ1, los modelos de bosque aleatorio no funcionaron mejor que la red elástica al hacer predicciones para otras universidades. Esto sugiere que los beneficios que brindan los modelos de bosques aleatorios capturan patrones de interacción complejos que son algo únicos para cada universidad pero que podrían no generalizarse bien a nuevos contextos. El principal valor atípico en la capacidad de generalización fue la Universidad 4, donde ninguno de los otros modelos alcanzó precisiones mucho mejores que el azar, y cuyo modelo produjo niveles relativamente bajos de precisión al predecir la retención de estudiantes en las universidades 1 y 2. Esto es probablemente el resultado del hecho de que la Universidad 4 era cualitativamente diferente de las otras universidades en varios aspectos, incluido el hecho de que la Universidad 4 era un colegio comunitario y constaba de 16 campus diferentes que se fusionaron para este análisis (ver Métodos para más detalles).

Mostramos que la retención de estudiantes se puede predecir a partir de datos institucionales, datos de participación conductual y su combinación. Usando datos de más de 50 000 estudiantes en cuatro universidades, nuestros modelos predictivos logran precisiones fuera de la muestra de hasta el 88 % (donde el 50 % es probabilidad). En particular, si bien tanto los datos institucionales como los datos de participación conductual predicen significativamente la retención, la combinación de los dos funciona mejor en la mayoría de los casos. Este hallazgo está respaldado por nuestros análisis de importancia de características que sugieren que las características de compromiso institucional y conductual se encuentran entre los predictores más importantes de la retención de estudiantes. Específicamente, se demostró que el desempeño académico medido por el GPA y las métricas de comportamiento asociadas con la participación en el campus (p. ej., asistencia a eventos o calificaciones) o la posición de un estudiante en la red (p. ej., cercanía o centralidad) actúan constantemente como factores de protección. Finalmente, destacamos la generalización de nuestros modelos entre universidades. Los modelos entrenados en una universidad pudieron predecir la retención de estudiantes en otra con niveles razonablemente altos de desempeño predictivo. Como era de esperar, la generalización entre universidades depende en gran medida del grado en que las universidades son similares en dimensiones estructurales importantes, y las precisiones de predicción caen radicalmente en los casos en que la similitud es baja (ver baja generalización cruzada para la Universidad 4).

Nuestros hallazgos contribuyen a la literatura existente de varias maneras. En primer lugar, responden a los llamados recientes para una investigación más predictiva en psicología54,55, así como el uso de análisis de Big Data en la investigación educativa56,57. Nuestros modelos no solo consideran las características sociodemográficas que recopilan las universidades, sino que también capturan la experiencia diaria de los estudiantes y el compromiso universitario mediante el seguimiento de los comportamientos a través de la aplicación READY Education. Nuestros hallazgos sugieren que estos predictores más psicológicos de la retención de estudiantes pueden mejorar el rendimiento de los modelos predictivos más allá de las variables sociodemográficas. Esto es consistente con hallazgos previos que sugieren que la inclusión de métricas de participación mejora el rendimiento de los modelos predictivos16,84,85. En general, nuestros modelos mostraron precisiones superiores a los modelos de estudios anteriores que se entrenaron solo en datos demográficos y registros de transcripciones15,25 o características de comportamiento menos integrales16 y proporcionaron resultados comparables a los informados en estudios que además incluyeron una amplia gama de variables socioeconómicas12. Dado que la aplicación READY Education captura solo una fracción de la experiencia real de los estudiantes, las altas precisiones predictivas hacen un caso aún más sólido de la importancia de la participación de los estudiantes en la retención universitaria.

En segundo lugar, nuestros hallazgos brindan información sobre las características que son más importantes para predecir si un estudiante abandonará o no la escuela. Al hacerlo, complementan nuestro enfoque predictivo con capas de comprensión que conducen no solo a validar nuestros modelos, sino también a generar conocimientos sobre posibles factores de protección y riesgo. Lo que es más importante, nuestros hallazgos resaltan la relevancia de las métricas de compromiso conductual para predecir la retención de estudiantes. La mayoría de las funciones identificadas como importantes en la predicción estaban relacionadas con la aplicación y la participación de la comunidad. En línea con investigaciones previas, se encontró que las características indicativas de una integración social temprana y profunda, como las interacciones con compañeros y profesores o el desarrollo de amistades y redes sociales, son altamente predictivas16,41. Por ejemplo, es razonable suponer que un breve período de tiempo entre el registro de la aplicación y la primera visita a un evento del campus (una de las características identificadas como importantes) tiene un impacto positivo en la retención, porque los eventos del campus ofrecen oportunidades ideales para que los estudiantes socialicen86. La participación temprana en un evento del campus implica la integración temprana y la creación de redes con otros, protegiendo a los estudiantes del estrés percibido87 y brindando un mejor apoyo social y emocional88. Por el contrario, un estudiante que nunca asiste a un evento o lo hace muy tarde en el semestre puede estar menos conectado con la vida del campus y la comunidad estudiantil, lo que a su vez aumenta la probabilidad de abandonar los estudios. Esta interpretación se ve reforzada por el hecho de que una alta proporción de calificaciones positivas de eventos se identificó como un predictor importante de que un estudiante continúe sus estudios. Es probable que los estudiantes que disfrutan de un evento se sientan más cómodos, se involucren en la vida universitaria, hagan más conexiones y construyan conexiones más fuertes. Esto podría resultar en un ciclo virtuoso en el que los estudiantes continúan asistiendo a eventos y con el tiempo crean una fuerte conexión social con sus compañeros. Como en la mayoría de los trabajos previos, un puntaje GPA alto se relacionó consistentemente con una mayor probabilidad de continuar los estudios21,24. Aunque su importancia varió entre las universidades, también se descubrió que el origen étnico desempeña un papel importante en la retención, con desigualdades constantes que se replican en nuestros modelos predictivos12,19,47. Por ejemplo, los estudiantes negros tenían, en promedio, más probabilidades de abandonar los estudios, lo que sugiere que las universidades deberían dedicar recursos adicionales para proteger a este grupo. Es importante destacar que todas las interpretaciones cualitativas son post-hoc. Si bien muchos de los hallazgos son intuitivos y se alinean con investigaciones previas sobre el tema, los estudios futuros deberían validar nuestros resultados e investigar la causalidad subyacente a los efectos en diseños experimentales o longitudinales dentro de la persona54,78.

Finalmente, nuestros hallazgos son los primeros en explorar hasta qué punto las relaciones entre ciertas características sociodemográficas y de comportamiento pueden ser idiosincrásicas y exclusivas de una universidad específica. Al poder comparar los modelos en cuatro universidades diferentes, pudimos demostrar que muchas de las ideas obtenidas de una universidad se pueden aprovechar para predecir la retención de estudiantes en otra. Sin embargo, nuestros hallazgos también apuntan a condiciones límite importantes: cuanto más disímiles sean las universidades en sus estructuras organizativas y experiencia estudiantil, más idiosincrásicos serán los patrones entre ciertas características sociodemográficas y de comportamiento con la retención de estudiantes y más difícil será simplemente traducirlos. conocimientos generales del campus universitario específico.

Nuestros hallazgos también tienen importantes implicaciones prácticas. En los EE. UU., la deserción de estudiantes genera una pérdida de ingresos anual promedio de aproximadamente $16.5 mil millones por año9,10 y más de $9 mil millones desperdiciados en subvenciones y subsidios federales y estatales que se otorgan a estudiantes que no terminan su título11. Por lo tanto, es fundamental predecir los posibles abandonos tan pronto como sea posible y con la mayor precisión posible para poder ofrecer apoyo dedicado y asignar recursos donde más se necesitan. Nuestros modelos se basan exclusivamente en datos recopilados en el primer semestre de la universidad y, por lo tanto, son un sistema ideal de "alerta temprana" para las universidades que desean predecir si sus estudiantes probablemente continuarán sus estudios o abandonarán los estudios en algún momento. Dependiendo de los recursos y metas de la universidad, los modelos predictivos pueden optimizarse para diferentes medidas de desempeño. De hecho, una universidad podría decidir centrarse en la verdadera tasa positiva para capturar tantos abandonos como sea posible. Si bien esto significaría clasificar erróneamente a los estudiantes "saludables" como posibles desertores, las universidades podrían decidir que la carga de brindar apoyo "innecesario" a estos estudiantes saludables vale la pena por el riesgo reducido de perder una deserción. Es importante destacar que nuestros modelos van más allá de las meras variables sociodemográficas y permiten un modelo personal más matizado que considera no solo "quién es alguien", sino también cómo es su experiencia en el campus. Como tal, nuestros modelos permiten reconocer la individualidad en lugar de utilizar evaluaciones demasiado generalizadas de segmentos sociodemográficos completos.

Sin embargo, lo importante es que es fundamental someter estos modelos a un control de calidad continuo. Si bien los modelos predictivos podrían permitir a las universidades señalar temprano a los estudiantes en riesgo, también podrían perpetuar los sesgos que se calcifican en los propios modelos predictivos. Por ejemplo, los estudiantes que tradicionalmente tienen menos probabilidades de interrumpir sus estudios podrían tener que pasar un nivel mucho más alto de comportamiento de compromiso disfuncional antes de que su archivo se marque como "en riesgo". Del mismo modo, una persona de un grupo tradicionalmente subrepresentado podría recibir un volumen innecesariamente alto de registros adicionales a pesar de que, en general, están prosperando en su experiencia diaria. Dado que ser etiquetado como "en riesgo" puede estar asociado con un estigma que podría reforzar los estigmas en torno a grupos históricamente marginados, será fundamental monitorear tanto el desempeño del modelo a lo largo del tiempo como la percepción de su utilidad entre administradores, profesores y estudiantes.

Nuestro estudio tiene varias limitaciones y destaca vías para futuras investigaciones. Primero, nuestra muestra consistió en cuatro universidades estadounidenses. Por lo tanto, nuestros resultados no son necesariamente generalizables a países con culturas más colectivistas y otros sistemas educativos, como Asia, donde las razones para abandonar los estudios pueden ser diferentes89,90, o Europa, donde la mayoría de los estudiantes trabajan a tiempo parcial y viven fuera del campus. La investigación futura debería investigar hasta qué punto nuestros modelos pueden generalizarse a otros contextos culturales e identificar las características de la retención de estudiantes que son universalmente válidas en todos los contextos.

En segundo lugar, nuestros modelos predictivos se basaron en datos de uso de aplicaciones. Por lo tanto, nuestro enfoque predictivo solo podría aplicarse a los estudiantes que decidieran usar la aplicación. Es probable que esta selección, en sí misma, introduzca un sesgo de muestreo, ya que es más probable que los estudiantes que deciden usar la aplicación retengan en primer lugar, restringiendo la variación en las observaciones y excluyendo a los estudiantes para quienes los datos de uso de la aplicación fueron No disponible. Sin embargo, como sugieren nuestros hallazgos, los datos institucionales por sí solos brindan un rendimiento predictivo independiente de las funciones de la aplicación, lo que hace que esta sea una alternativa viable para los estudiantes que no usan la aplicación.

En tercer lugar, nuestros modelos predictivos se basan en predicciones transversales. Es decir, observamos el comportamiento de un estudiante en el transcurso de un semestre completo y, en función de los patrones observados en otros estudiantes, predecimos si es probable que ese estudiante abandone los estudios o no. La investigación futura podría intentar mejorar tanto el rendimiento predictivo del modelo como su utilidad para contextos aplicados mediante el modelado dinámico de tendencias dentro de la persona. Con suficientes datos, el modelo podría observar el comportamiento de línea de base de una persona e identificar los cambios de esa línea de base como potencialmente problemáticos. De hecho, un mayor contacto social con otros estudiantes podría considerarse un factor protector en nuestro modelo transversal. Sin embargo, existen diferencias individuales sustanciales en la cantidad de contacto social que las personas buscan y disfrutan91. Por lo tanto, enviar 10 mensajes de chat a la semana puede considerarse mucho para una persona, pero muy poco para otra. Por lo tanto, la investigación futura debería investigar si las características de compromiso conductual permiten un modelo más dinámico dentro de la persona que hace posible tener en cuenta las tasas base y proporcionar una evaluación dinámica y momentánea de la probabilidad de que un estudiante abandone los estudios.

En cuarto lugar, aunque los datos de compromiso se capturaron como una serie de tiempo longitudinal con eventos marcados en el tiempo, colapsamos los datos en un solo conjunto de características transversales para cada estudiante. Aunque algunas de estas características capturan la variación en los comportamientos a lo largo del tiempo (p. ej., la entropía y las tendencias lineales), las investigaciones futuras deberían intentar implementar modelos de aprendizaje automático más avanzados para dar cuenta de estos datos de series temporales directamente. Por ejemplo, los modelos de memoria a largo plazo (LSTM)92, un tipo de red neuronal recurrente, son capaces de aprender patrones en datos secuenciales longitudinales como el nuestro.

En quinto lugar, aunque la investigación actual proporciona información inicial sobre el funcionamiento de los modelos al resaltar la importancia de ciertas características, las conclusiones que se pueden extraer de estos análisis son limitadas, ya que las métricas de importancia se calculan para la población general. La investigación futura podría apuntar a calcular la importancia de ciertas características a nivel individual para probar si su importancia varía según ciertas características sociodemográficas. Estimar la importancia de la posición de una persona en la red social a nivel individual, por ejemplo, permitiría ver si la importancia está correlacionada con datos institucionales como el estatus de minoría o de primera generación.

Finalmente, nuestros resultados sientan las bases para desarrollar intervenciones que fomenten la retención a través de la configuración de la experiencia de los estudiantes en la universidad93. Las intervenciones que han demostrado tener un efecto positivo en la retención incluyen programas de orientación y asesoramiento académico94, servicios de apoyo al estudiante como tutoría y entrenamiento, así como subvenciones basadas en la necesidad95. Sin embargo, hasta la fecha, los programas de experiencia de primer año destinados a fortalecer la integración social de los estudiantes de primer año, no parecen haber dado resultados positivos96,97. Nuestros hallazgos podrían respaldar el desarrollo de intervenciones destinadas a mejorar y mantener la integración de los estudiantes en el campus. En un alto nivel, las percepciones sobre las características más importantes brindan un camino empírico para desarrollar intervenciones relevantes que apunten a las palancas más importantes de retención de estudiantes. Por ejemplo, el hecho de que el tiempo entre el registro y la asistencia al primer evento tenga un impacto tan grande en la retención de estudiantes significa que las universidades deben hacer todo lo posible para que los estudiantes asistan a los eventos lo antes posible. De manera similar, podrían desarrollar intervenciones que conduzcan a redes más cohesivas entre las cohortes y asegurarse de que todos los estudiantes se conecten con su comunidad. En un nivel más profundo y sofisticado, los nuevos enfoques para modelar la explicabilidad podrían permitir a las universidades adaptar su intervención a cada estudiante98,99. Por ejemplo, la IA explicable hace posible derivar reglas de decisión para cada estudiante, indicando qué características fueron críticas para predecir el resultado de los estudiantes. Si bien se puede predecir que el estudiante A abandonará porque está desconectado de la red, se podría predecir que el estudiante B abandonará porque no accede a la información correcta en la aplicación. Dada esta información, las universidades podrían personalizar sus ofertas según las necesidades específicas del estudiante. Si bien se puede alentar al estudiante A a pasar más tiempo socializando con otros estudiantes, se le puede recordar al estudiante B que consulte información importante del curso. Por lo tanto, los modelos predictivos no solo podrían usarse para identificar a los estudiantes en riesgo, sino también proporcionar una ruta automatizada para ofrecer orientación y apoyo personalizados.

Por cada estudio que se interrumpe, se rompe un sueño educativo. Y cada sueño destrozado tiene un impacto negativo a largo plazo tanto en el estudiante como en la universidad a la que asistió. En este estudio presentamos un enfoque para predecir con precisión la retención de los estudiantes después del primer trimestre. Nuestros resultados muestran que la retención de estudiantes se puede predecir con niveles relativamente altos de desempeño predictivo cuando se consideran datos institucionales, datos de compromiso conductual o una combinación de ambos. Al combinar características sociodemográficas con rastros de comportamiento observados pasivamente que reflejan las actividades diarias de un estudiante, nuestros modelos ofrecen una imagen holística de las experiencias universitarias de los estudiantes y su relación con la retención. En general, tales modelos predictivos tienen un gran potencial tanto para la identificación temprana de estudiantes en riesgo como para permitir intervenciones oportunas basadas en evidencia.

Los datos sin procesar no están disponibles públicamente debido a su naturaleza patentada y los riesgos asociados con la anonimización, pero están disponibles del autor correspondiente a pedido razonable. Los datos preprocesados ​​y todos los códigos de análisis están disponibles en OSF (https://osf.io/bhaqp/?view_only=629696d6b2854aa9834d5745425cdbbc) para facilitar la reproducibilidad de nuestro trabajo. Los datos se analizaron con R, versión 4.0.0 (R Core Team, 2020; consulte las subsecciones para conocer los paquetes específicos y las versiones utilizadas). El diseño del estudio se basa en datos secundarios y los análisis no se registraron previamente.

Ginder, SA, Kelly-Reid, JE & Mann, FB Tasas de graduación para cohortes seleccionadas, 2009–14; Medidas de resultado para el año de cohorte 2009–10; Ayuda financiera para estudiantes, año académico 2016–17; y admisiones en instituciones postsecundarias, otoño de 2017. Primer vistazo (datos provisionales). NCES 2018–151. Centro Nacional de Estadísticas Educativas (2018).

Snyder, TD, de Brey, C. & Dillow, SA Compendio de estadísticas educativas 2017 NCES 2018-070. nacional Centavo. Educ. Estadística (2019).

Centro de Investigación NSC. Persistencia y retención: 2019. NSC Research Center https://nscresearchcenter.org/snapshotreport35-first-year-persistence-and-retention/ (2019).

Bound, J., Lovenheim, MF y Turner, S. ¿Por qué han disminuido las tasas de finalización de estudios universitarios? Un análisis de los cambios en la preparación de los estudiantes y los recursos universitarios. Soy. economía Aplicación J. economía 2, 129–157 (2010).

Artículo PubMed PubMed Central Google Académico

Bowen, WG, Chingos, MM & McPherson, MS Cruzando la meta. en Crossing the Finish Line (Princeton University Press, 2009).

McFarland, J. et al. La Condición de la Educación 2019. NCES 2019-144. nacional Centavo. Educ. Estadística (2019).

Educación, USD de. Hoja informativa: Centrar la educación superior en el éxito de los estudiantes. [Hoja informativa] (2015).

Freudenberg, N. & Ruglis, J. Peer revisado: Reformulación de la deserción escolar como un problema de salud pública. Anterior enfermedad crónica 4, 4 (2007).

Google Académico

Raisman, N. El costo de la deserción universitaria en colegios y universidades de cuatro años: un análisis de 1669 instituciones estadounidenses. Perspectiva de política. (2013).

Wellman, J., Johnson, N. y Steele, P. Medición (y gestión) de los costos invisibles de la deserción postsecundaria. Resumen de políticas. Proyección de costo delta Soy. Instituto Res. (2012).

Schneider, M. Finalización de la primera vuelta: el costo de la deserción de estudiantes de primer año en los colegios y universidades de cuatro años de Estados Unidos (Institutos Estadounidenses de Investigación, 2010).

Google Académico

Delen, D. Un análisis comparativo de las técnicas de aprendizaje automático para la gestión de la retención de estudiantes. Decir Sistema de soporte 49, 498–506 (2010).

Artículo Google Académico

Yu, R., Lee, H. & Kizilcec, RF ¿Deberían los modelos de predicción de deserción universitaria incluir atributos protegidos? en las Actas de la Octava Conferencia ACM sobre Escala de aprendizaje @ 91–100 (2021).

Tinto, V. Reconstruyendo el primer año de universidad. Plan. Alto. Educ. 25, 1–6 (1996).

Google Académico

Ortiz-Lozano, JM, Rua-Vieites, A., Bilbao-Calabuig, P. & Casadesús-Fa, M. Retención de estudiantes universitarios: Mejor tiempo y datos para identificar estudiantes de grado en riesgo de abandono. innovador Educ. Enseñar. En t. 57, 74–85 (2020).

Google Académico

Ram, S., Wang, Y., Currim, F. & Currim, S. Uso de big data para predecir la retención de estudiantes de primer año. en 2015 conferencia internacional sobre sistemas de información: Exploring the information frontier, ICIS 2015 (Association for Information Systems, 2015).

Levitz, RS, Noel, L. & Richter, BJ Movimientos estratégicos para el éxito de la retención. Dir. N. Alto. Educ. 1999, 31–49 (1999).

Artículo Google Académico

Veenstra, CP Una estrategia para mejorar la retención universitaria de primer año. J. Cal. Participa 31, 19–23 (2009).

Google Académico

Astin, AW ¿Qué tan "buena" es la tasa de retención de su institución?. Res. Alto. Educ. 38, 647–658 (1997).

Artículo Google Académico

Coleman, JS Capital social en la creación de capital humano. Soy. J. Sociol. 94, S95–S120 (1988).

Artículo Google Académico

Motivo, RD Estudiante variables que predicen la retención: Investigaciones recientes y nuevos desarrollos. J. Espárrago. Af. Res. Practica 40, 704–723 (2003).

Google Académico

Tinto, V. Abandono de la educación superior: una síntesis teórica de investigaciones recientes. Rev Educ Res 45, 89–125 (1975).

Artículo Google Académico

Tinto, V. Completar la universidad: Repensar la acción institucional (University of Chicago Press, 2012).

Libro Google Académico

Astin, A. Retención y satisfacción de los estudiantes. Educ. rec. 68, 36–42 (1987).

Google Académico

Aulck, L., Velagapudi, N., Blumenstock, J. & West, J. Predicción de la deserción estudiantil en la educación superior. preimpresión de arXiv arXiv:1606.06364 (2016).

Bogard, M., Helbig, T., Huff, G. & James, C. Una comparación de modelos empíricos para predecir la retención estudiantil (Western Kentucky University, 2011).

Google Académico

Murtaugh, PA, Burns, LD & Schuster, J. Predicción de la retención de estudiantes universitarios. Res. Alto. Educ. 40, 355–371 (1999).

Artículo Google Académico

Porter, KB Tendencias actuales en la retención de estudiantes: una revisión de la literatura. Enseñar. Aprender. enfermeras 3, 3–5 (2008).

Artículo Google Académico

Thomas, SL Lazos que unen: un enfoque de red social para comprender la integración y la persistencia de los estudiantes. J. Alto. Educ. 71, 591–615 (2000).

Google Académico

Peltier, GL, Laden, R. & Matranga, M. Persistencia estudiantil en la universidad: una revisión de la investigación. J. Col. Semental. retirado 1, 357–375 (2000).

Artículo Google Académico

Nandeshwar, A., Menzies, T. & Nelson, A. Patrones de aprendizaje de retención de estudiantes universitarios. Sistema experto aplicación 38, 14984–14996 (2011).

Artículo Google Académico

Boero, G., Laureti, T. & Naylor, R. Un análisis econométrico del abandono y la progresión de los estudiantes en las universidades italianas posteriores a la reforma. (2005).

Tinto, V. Dejando la universidad: Reconsiderando las causas y curas de la deserción estudiantil (ERIC, 1987).

Google Académico

Choy, S. Estudiantes cuyos padres no fueron a la universidad: acceso, persistencia y logros postsecundarios. Hallazgos de la condición de la educación, 2001. (2001).

Ishitani, TT Estudio de la deserción y el comportamiento de finalización de estudios entre estudiantes universitarios de primera generación en los Estados Unidos. J. Alto. Educ. 77, 861–885 (2006).

Artículo Google Académico

Thayer, PB Retención de estudiantes de primera generación y de bajos ingresos. (2000).

Britt, SL, Ammerman, DA, Barrett, SF y Jones, S. Préstamos estudiantiles, estrés financiero y retención de estudiantes universitarios. J. Espárrago. Finanzas Ayuda 47, 3 (2017).

Google Académico

McKinney, L. & Burridge, AB ¿Ayuda o estorba? Los efectos de los préstamos en la persistencia de los estudiantes de colegios comunitarios. Res. Educación Superior 56, 299–324 (2015).

Artículo Google Académico

Hochstein, SK & Butler, RR Los efectos de la composición de un paquete de ayuda financiera en la retención de estudiantes. J. Espárrago. Finanzas Ayuda 13, 21–26 (1983).

Google Académico

Singell, LD Jr. Ven y quédate un rato: ¿La ayuda financiera afecta la retención condicionada a la inscripción en una gran universidad pública?. economía Educ. Rev. 23, 459–471 (2004).

Artículo Google Académico

Bean, JP Nueve temas de estudiante universitario. Col. Semental. retenido Semental de fórmula. Éxito 215, 243 (2005).

Google Académico

Tinto, V. A través de los ojos de los estudiantes. J. Col. Semental. retirado 19, 254–269 (2017).

Artículo Google Académico

Cabrera, AF, Nora, A. & Castaneda, MB Persistencia universitaria: prueba de modelado de ecuaciones estructurales de un modelo integrado de retención estudiantil. J. Alto. Educ. 64, 123–139 (1993).

Google Académico

Roberts, J. & Styron, R. Satisfacción y persistencia estudiantil: Factores vitales para la retención estudiantil. Res. Alto. Educ. J. 6, 1 (2010).

Google Académico

Gopalan, M. & Brady, ST Sentido de pertenencia de los estudiantes universitarios: una perspectiva nacional. Educ. Res. 49, 134–137 (2020).

Artículo Google Académico

Hoffman, M., Richmond, J., Morrow, J. & Salomone, K. Investigating, "sentido de pertenencia" en estudiantes universitarios de primer año. J. Col. Semental. retirado 4, 227–256 (2002).

Artículo Google Académico

Terenzini, PT & Pascarella, ET Hacia la validación del modelo de deserción de estudiantes universitarios de Tinto: una revisión de estudios recientes. Res. Educación Superior 12, 271–282 (1980).

Artículo Google Académico

Astin, AW El impacto de la vida en dormitorios en los estudiantes. Expediente educativo (1973).

Astin, AW Participación de los estudiantes: una teoría del desarrollo para la educación superior. J. Col. Semental. pers. 25, 297–308 (1984).

Google Académico

Terenzini, PT & Pascarella, ET Estudiando a los estudiantes universitarios en el siglo XXI: Enfrentando nuevos desafíos. Rev. High Ed. 21, 151–165 (1998).

Google Académico

Thompson, J., Samiratedu, V. & Rafter, J. Los efectos de la residencia en el campus en estudiantes universitarios por primera vez. NASPA J. 31, 41–47 (1993).

Artículo Google Académico

Tinto, V. Investigación y práctica de la retención estudiantil: ¿Qué sigue?. J. Col. Semental. retirado 8, 1–19 (2006).

Artículo Google Académico

Lazer, D. et al. Ciencias sociales computacionales. Ciencia 1979 (323), 721–723 (2009).

Artículo Google Académico

Yarkoni, T. & Westfall, J. Elegir la predicción sobre la explicación en psicología: Lecciones del aprendizaje automático. Perspectiva. psicol. ciencia 12, 1100–1122 (2017).

Artículo PubMed PubMed Central Google Académico

Peters, H., Marrero, Z. & Gosling, SD El kit de herramientas Big Data para psicólogos: fuentes de datos y metodologías. en La psicología de la tecnología: la investigación en ciencias sociales en la era de Big Data. 87–124 (Asociación Americana de Psicología, 2022). doi:https://doi.org/10.1037/0000290-004.

Fischer, C. et al. Minería de big data en educación: posibilidades y desafíos. Res. Rev. Educ. 44, 130–160 (2020).

Artículo Google Académico

Hilbert, S. et al. Aprendizaje automático para las ciencias de la educación. Rev.Educ. 9, e3310 (2021).

Artículo Google Académico

Academia Nacional de Educación. Big data en educación: equilibrando los beneficios de la investigación educativa y la privacidad de los estudiantes. (2017).

Aulck, L., Nambi, D., Velagapudi, N., Blumenstock, J. & West, J. Minería de registros universitarios para predecir la deserción de estudiantes de primer año. En t. Educ. Datos mín. Soc. (2019).

Beaulac, C. & Rosenthal, JS Predicción del éxito académico y la carrera de estudiantes universitarios utilizando bosques aleatorios. Res. Educación Superior 60, 1048–1064 (2019).

Artículo Google Académico

Berens, J., Schneider, K., Görtz, S., Oster, S. & Burghoff, J. Detección temprana de estudiantes en riesgo: predicción de la deserción de los estudiantes utilizando datos administrativos de los estudiantes y métodos de aprendizaje automático. Disponible en SSRN 3275433 (2018).

Dawson, S., Jovanovic, J., Gašević, D. & Pardo, A. De la predicción al impacto: evaluación de un programa de retención de análisis de aprendizaje. en Actas de la séptima conferencia internacional de análisis y conocimiento del aprendizaje 474–478 (2017).

Dekker, GW, Pechenizkiy, M. & Vleeshouwers, JM Predecir el abandono escolar de los estudiantes: un estudio de caso. En t. Trabajar. Educación en grupo Datos mín. (2009).

del Bonifro, F., Gabbrielli, M., Lisanti, G. & Zingaro, SP Predicción de la deserción estudiantil. en Conferencia Internacional sobre Inteligencia Artificial en la Educación 129–140 (Springer, 2020).

Hutt, S., Gardner, M., Duckworth, AL y D'Mello, SK Evaluación de la equidad y la generalización en modelos que predicen la graduación a tiempo de las solicitudes universitarias. En t. Educ. Datos mín. Soc. (2019).

Jayaprakash, SM, Moody, EW, Lauría, EJM, Regan, JR & Baron, JD Alerta temprana de estudiantes en riesgo académico: una iniciativa de análisis de código abierto. J. Aprende. Anal. 1, 6–47 (2014).

Artículo Google Académico

Balakrishnan, G. & Coetzee, D. Predicción de la retención de estudiantes en cursos masivos abiertos en línea utilizando modelos ocultos de Markov. Electo. Ing. computar ciencia Universidad California Berkeley 53, 57–58 (2013).

Google Académico

Hastie , T. , Tibshirani , R. & Friedman , J. The Elements of Statistical Learning (Springer Series in Statistics, Nueva York, NY, EE. UU., 2001).

Libro MATEMÁTICAS Google Académico

Chawla , NV , Bowyer , KW , Hall , LO & Kegelmeyer , WP SMOTE: Una técnica de sobremuestreo minoritario sintético. J. Artif. Intel. Res. 16, 321–357 (2002).

Artículo MATEMÁTICAS Google Académico

Zou, H. & Hastie, T. Regularización y selección de variables a través de la red elástica. Estado JR. Soc. Seri. Estado B. Método. 67, 301–320 (2005).

Artículo MathSciNet MATEMÁTICAS Google Académico

Friedman, J., Hastie, T. & Tibshirani, R. Caminos de regularización para modelos lineales generalizados a través del descenso de coordenadas. Estado J. suave 33, 1 (2010).

Artículo PubMed PubMed Central Google Académico

Breiman, L. Bosques aleatorios. Mach. Aprender. 45, 5–32 (2001).

Artículo MATEMÁTICAS Google Académico

Liaw, A. & Wiener, M. Clasificación y regresión por randomForest. Noticias R 2, 18–22 (2002).

Google Académico

Pargent, F., Schoedel, R. & Stachl, C. Introducción al aprendizaje automático para psicólogos en R. Psyarxiv (2022).

Hoerl, AE y Kennard, RW Regresión de Ridge. en Enciclopedia de Ciencias Estadísticas vol. 8 129–136 (John Wiley & Sons, Inc., 2004).

Tibshirani, R. Regresión de contracción y selección a través de Lasso. Estado JR. Soc. Ser. B (Methodol.) 58, 267–288 (1996).

MathSciNet MATEMÁTICAS Google Académico

Hastie, T. & Qian, J. Glmnet viñeta. vol. 9 1–42 https://hastie.su.domains/Papers/Glmnet_Vignette.pdf (2016).

Orrù, G., Monaro, M., Conversano, C., Gemignani, A. & Sartori, G. Aprendizaje automático en psicometría e investigación psicológica. Frente. psicol. 10, 2970 (2020).

Artículo PubMed PubMed Central Google Académico

Pargent, F. & Albert-von der Gönna, J. Modelado predictivo con datos de panel psicológicos. Psicología Z (2019).

Pargent, F., Schoedel, R. & Stachl, C. Mejores prácticas en aprendizaje automático supervisado: un tutorial para psicólogos. Doi: https://doi.org/10.31234/osf.io/89snd (2023).

Friedman, J., Hastie, T. y Tibshirani, R. Los elementos del aprendizaje estadístico vol. 1 (Serie Springer en Estadística, 2001).

Matemáticas Google Académico

Rijsbergen, V. & Joost, CK Recuperación de información Butterworths Londres. Google Scholar Google Scholar Biblioteca Digital Biblioteca Digital (1979).

Molnar, C. Aprendizaje automático interpretable. (Lulu.com, 2020).

Aguiar, E., Ambrose, GA, Chawla, N. v, Goodrich, V. y Brockman, J. Compromiso frente a rendimiento: uso de carpetas electrónicas para predecir la persistencia de los estudiantes de ingeniería en el primer semestre. Revista de análisis de aprendizaje vol. 1 (2014).

Chai, KEK & Gibson, D. Predicción del riesgo de deserción para estudiantes universitarios con modelos basados ​​en el tiempo. En t. Asoc. desarrollo información Soc. (2015).

Saenz, T., Marcoulides, GA, Junn, E. & Young, R. La relación entre la experiencia universitaria y el desempeño académico entre estudiantes de minorías. En t. J. Educ. Manag (1999).

Pidgeon, AM, Coast, G., Coast, G. & Coast, G. Moderadores psicosociales del estrés, la ansiedad y la depresión percibidos en estudiantes universitarios: un estudio internacional. Abierta J. Soc. ciencia 2, 23 (2014).

Google Académico

Wilcox, P., Winn, S. & Fyvie-Gauld, M. 'No tenía nada que ver con la universidad, era solo la gente': El papel del apoyo social en la experiencia del primer año de educación superior. Semental. Alto. Educ. 30, 707–722 (2005).

Artículo Google Académico

Guiffrida, DA Hacia un avance cultural de la teoría de Tinto. Rev. High Ed. 29, 451–472 (2006).

Artículo Google Académico

Triandis, HC, McCusker, C. & Hui, CH Pruebas multimétodo de individualismo y colectivismo. J. Pers. Soc. psicol. 59, 1006 (1990).

Artículo Google Académico

Watson, D. & Clark, LA La extraversión y su núcleo emocional positivo. en Manual de psicología de la personalidad 767–793 (Elsevier, 1997).

Greff, K., Srivastava, RK, Koutník, J., Steunebrink, BR & Schmidhuber, J. LSTM: Una odisea espacial de búsqueda. Trans. IEEE. Red neuronal Aprender. sist. 28, 2222–2232 (2017).

Artículo MathSciNet PubMed Google Académico

Arnold, KE & Pistilli, MD Señales del curso en Purdue: uso de análisis de aprendizaje para aumentar el éxito de los estudiantes. en Actas de la segunda conferencia internacional sobre análisis de aprendizaje y conocimiento 267–270 (2012).

Braxton, JM & McClendon, SA El fomento de la integración y retención social a través de la práctica institucional. J. Col. Semental. retirado 3, 57–71 (2001).

Artículo Google Académico

Sneyers, E. & de Witte, K. Intervenciones en la educación superior y su efecto sobre el éxito estudiantil: un metanálisis. Educ. Rev. (Birm) 70, 208–228 (2018).

Artículo Google Académico

Jamelske, E. Midiendo el impacto de un programa universitario de experiencia de primer año en el GPA y la retención de los estudiantes. Educación Superior (Dordr) 57, 373–391 (2009).

Artículo Google Académico

Purdie, JR & Rosser, VJ Examinar el desempeño académico y la retención de estudiantes de primer año en comunidades de aprendizaje vivo y cursos de experiencia de primer año. Col. Semental. Af. J. 29, 95 (2011).

Google Académico

Lundberg, SM et al. Desde explicaciones locales hasta comprensión global con IA explicable para árboles. Nat. Mach. Intel. 2, 56–67 (2020).

Artículo PubMed PubMed Central Google Académico

Ramon, Y., Farrokhnia, RA, Matz, SC & Martens, D. IA explicable para perfiles psicológicos a partir de datos de comportamiento: una aplicación a las cinco grandes predicciones de personalidad a partir de registros de transacciones financieras. Información 12, 518 (2021).

Artículo Google Académico

Descargar referencias

Universidad de Columbia, Nueva York, EE. UU.

Sandra C. Matz y Heinrich Peters

Universidad Ludwig Maximilian de Munich, Munich, Alemania

Cristina S. Bukow

Ready Education, Montreal, Canadá

christine diáconos

Universidad de St. Gallen, St. Gallen, Suiza

Clemens Stachl

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

SCM, CB y CS diseñó la investigación. CD proporcionó los datos. SCM, CB y HP analizaron los datos. SCM y CB escribieron el manuscrito. Todos los autores revisaron el manuscrito. Las versiones anteriores de esta investigación formaron parte de la tesis de maestría de CB que fue supervisada por SCM y CS.

Correspondencia a Sandra C. Matz.

CD es un ex empleado de Ready Education. Ninguno de los otros autores tiene conflicto de intereses relacionado con esta presentación.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Matz, SC, Bukow, CS, Peters, H. et al. Uso del aprendizaje automático para predecir la retención de estudiantes a partir de características sociodemográficas y métricas de participación basadas en aplicaciones. Informe científico 13, 5705 (2023). https://doi.org/10.1038/s41598-023-32484-w

Descargar cita

Recibido: 09 Agosto 2022

Aceptado: 28 de marzo de 2023

Publicado: 07 abril 2023

DOI: https://doi.org/10.1038/s41598-023-32484-w

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.