本研究旨在通过数据分析识别影响学生辍学的关键因素,并建立模型以提前预测和干预潜在辍学者,助力教育公平与质量提升。
该项目的目标是预测有辍学风险的学生。从包含1000名学生前两个学期数据的文件开始,需要将这些数据集成到一个单独的文件中以进行后续分析。最终的数据集应分为三组:第一组包括100名学生的测试数据;第二组包括200名学生的评估模型所需的数据;第三组则包含700名学生用于训练模型的数据。
由于没有标记的学生,需要先对这些数据进行描述性分析,并通过k-means聚类算法将未标记的数据分类。接着使用人工神经网络来建立预测辍学风险的模型。在完成建模后,利用100名学生的测试集验证其有效性,以识别哪些学生有较高的辍学可能性。
为了进一步优化资源分配和减少辍学率,项目还会应用遗传算法调整大学提供的支持措施,并为高危群体的学生提供必要的帮助与机会。在这个过程中会进行变量选择及特征工程处理,例如性别(男性或女性用0或1表示)以及入学成绩(包括 admision.letras 和 admision.numeros 两个分数指标)。