
中文文本分类的机器学习实战代码与数据
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本书提供了一系列关于中文文本分类的实用机器学习代码和相关数据集,旨在帮助读者掌握实际操作技能。
实验要求如下:
1. 文本类别数量:至少包含10个类;
2. 训练集文档数:不少于50,000篇;每个类别平均有5,000篇文章。
3. 测试集文档数:不少于50,000篇;每类平均也有5,000篇文章。实验分组完成,小组成员不超过三人,独立完成可以获得额外分数。
【实验内容】
1. 构建语料库,包括使用爬虫抓取网页等方法;
2. 数据预处理:文档模型建立(如去噪、分词)、数据字典构建,并用词袋或主题模型表示文档。特别地,采用LDA这样的主题模型会获得额外分数。
3. 选择分类算法(朴素贝叶斯是必须的,SVM或其他可选),训练文本分类器,理解所使用算法的工作原理和参数含义;
4. 对测试集中的文章进行分类处理;
5. 利用准确率和召回率评估测试集中文本的分类结果:计算每类别的准确率、召回率,并求出整体上的准确率和召回率。
全部评论 (0)
还没有任何评论哟~


