
Word2Vec Java 源码 - FBDP 项目 2:中文文本挖掘 | 舆情分析 | Hadoop | Java | MapReduce
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
实验目标旨在运用多种机器学习算法对文本内容进行情感识别,具体包括KNN、决策树、朴素贝叶斯以及支持向量机等算法,并深入学习模型训练的流程,以及精确的分类预测方法。实验要求至少采用两种不同的分类方法来实现情感判别。
数据集说明:本次实验所使用的样本集包含负面、中性及正面三种词性的文本数据,而测试集则专注于股票新闻标题的数据集。
实验设计说明:该实验的设计重点在于阐述主要的设计思路、算法的设计方案、程序的设计细节以及各个类别的详细说明。此外,还需对程序运行情况和实验结果进行分析,并深入探讨性能和扩展性方面可能存在的不足之处,以及相应的改进建议。
主要设计思路:本次实验将围绕以下几个关键步骤展开:首先进行数据预处理,从原始数据集中提取新闻标题并进行分词;随后进行数据清洗,去除分词后可能存在的非中文字符;接着,对样本集的三种情感标签下的词组分别进行词频统计;再然后是文本向量化,对样本集和测试集中的词组计算TF-IDF值,并将TF-IDF值扩大10000倍以方便后续处理;接下来是特征选择环节,根据样本集中TF-IDF值,在三类情感中每类选取500个词作为特征词。
全部评论 (0)
还没有任何评论哟~


