
带情感标签的weibo-senti-100k新浪微博数据集
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
该数据集包含10万条带有正面或负面情感标签的新浪微博,用于训练和评估文本情感分析模型。
weibo_senti_100k 数据集介绍:该数据集包含大约 10 万条新浪微博评论,并附有情感标注,其中正向与负向的评论各约5万条。推荐用于进行情感分析、观点倾向性研究等实验。
数据来源为网上搜集的新浪微博原数据集,共包括了12万条评论及其相应的情感标记信息。经过加工处理后,整合成一份统一编码(UTF-8)且去重后的CSV文件。
加载此数据集的方法如下:
```python
import pandas as pd
path = weibo_senti_100k文件夹所在路径
pd_all = pd.read_csv(path + /weibo_senti_100k.csv)
print(评论总数:, pd_all.shape[0])
print(正向评论数:, pd_all[pd_all.label == 1].shape[0])
print(负向评论数:, pd_all[pd_all.label == 0].shape[0])
```
执行上述代码后,输出结果为:
- 总体评论数量: 119,988
- 正向情感的评论数量: (具体数值需运行脚本获取)
- 负向情感的评论数量:(具体数值需运行脚本获取)
全部评论 (0)
还没有任何评论哟~


