
PySpark、R和Python的源代码项目。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
数据科学项目涉及的技术包括:功能选择方面,采用了主成分分析(PCA)、Akiake信息标准(AIC)以及贝叶斯信息准则(BIC),同时利用最小绝对收缩和选择算子(LASSO)进行优化。具体的技术实现使用了Python语言的Sckit-learn、Tensorflow和R,以及PySpark和R作为数据处理工具。在模型方面,项目借鉴了随机森林、梯度提升、XGBoost、深度神经网络、自动编码器和贝叶斯方法的楷模。入院数据则使用了PySpark和R进行处理。
在分类任务中,项目采用了广义线性模型(GLM),包括岭回归(RIDGE)、Lasso回归和ELNET,此外还应用了随机森林、决策树、高斯朴素贝叶斯、支持向量机(线性SVC、POLY、RBF)以及逻辑回归。 随机森林也使用R语言实现。最后,项目还利用R语言对GLM进行了分类,包括岭回归和Lasso回归。 原始数据来源于以下两个来源:1. 2.
全部评论 (0)
还没有任何评论哟~


