
该文本分类系统采用scikit-learn进行实现。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
文本分类涉及文本分类任务,并采用搜狗文本分类语料库进行支持。主要步骤包括:文本分词处理、特征选择、特征权重计算以及文本特征向量的表示。随后,训练模型并进行测试,具体使用了k近邻算法(kNN)、朴素贝叶斯分类器(NB)和支持向量机(SVM)。为了评估模型的性能,我们利用爬虫技术抓取了大量的实时新闻数据,并进行了测试。数据集方面,英文文本采用了知名新闻数据集,该数据集可供下载。中文文本则使用了部分公开版数据。运行环境为Python 3.4版本,并结合了scikit-learn和麻省理工学院(MIT)的机器学习工具包。此外,还提供了HTTP服务器示例,用于展示今日头条新闻测试结果。
全部评论 (0)
还没有任何评论哟~


