本项目专注于收集和整理中文文本的情感标注数据,涵盖社交媒体评论、新闻观点等多种来源,旨在促进自然语言处理领域内对中文情感分析的研究。
语料库说明:
## 词典
1. HowNet 情感词典
2. ntusd 情感词典
3. 情感分析停用词表
4. 结巴分词自定义词典
5. 常用语词典,包括流行新词、网络流行语、手机词汇以及粤语和潮州方言中的常用词语等
## 手机评论数据
1. HTC手机用户评价,包含评分信息,共302篇(每篇评分为1到5分)
2. 魅族手机用户评价,包含评分信息,共529篇(每篇评分为1到5分)
3. 诺基亚手机用户评价,包含评分信息,共614篇(每篇评分为1到5分)
4. OPPO手机用户评价,包含评分信息,共553篇(每篇评分为1到5分)
5. 三星手机用户评价,包含评分信息,共762篇(每篇评分为1到5分)
6. 中兴手机用户评价,包含评分信息,共785篇(每篇评分为1到5分)
7. 摩托罗拉手机用户评价,包含评分信息,共990篇(每篇评分为1到5分)
8. 整合:正面评论1084条和负面评论524条
## 淘宝商品评论数据
1. 正面评价一万个样本
2. 负面评价一万个样本
3. 待预测的语料一万个样本
## 2012微博情感分析数据
该部分的数据集来自腾讯微博,每个话题包含约一千条信息,总计大约两万条。具体任务包括:
1. 观点句与非观点句的判别
2. 情感分类
3. 情感要素抽取
## 谭松波酒店评论语料
正负样本数量不平衡,其中正面评价7000个样本,负面评价3000个样本。
## 酒店、服装、水果、平板和洗发水的综合评论数据
这些类别中每个类别的正负样本各有5,000条,总共包含5万个样例。