
基于Spark的XGBoost中文文本分类系统:xgbspark-text-classification
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
xgspark-text-classification是一款利用Apache Spark和XGBoost技术实现的大规模中文文本高效分类系统,适用于处理大规模数据集。
特征资料来源:Hive;分词工具:Ansj;功能工程包括NGram和TF-IDF或预训练的Word2Vec模型;分类算法使用XGBoost;通过Spark Pipeline进行模型训练,采用交叉验证与网格搜索来进行模型选择和调整。环境版本为:环境 2.1.1、1.2.1、0.7 和 5.1.2。
全部评论 (0)
还没有任何评论哟~


