本研究利用情感词典和机器学习方法,深入分析了疫情时期新闻报道和微博评论的情感色彩与民众心理变化。
在疫情背景下进行情感分析的研究项目主要基于情感词典以及机器学习技术对新闻报道与微博评论中的情绪进行量化评估。该项目由南京大学社会与行为科学学院2020年秋季学期数据科学基础课程的学员Cong Jin、YDJSIR和Sugar Xu共同完成,并已开源发布。
项目的文件结构包括以下几个部分:
- `Analyze`:包含所有用于分析的数据处理代码。
- `Data`:存放原始数据及经过预处理后的各类结果,分为六个子目录(stage0至stage6),每个阶段内又进一步细分到具体日期的每日数据。
- `Report`:涵盖报告制作过程中的源文件和最终成品文档。
- `Spyder`:包含用于抓取相关网络信息的爬虫代码。
各个阶段的数据结构如下:
1. 每个子目录(如stage0至stage6)内包括疫情关键词筛选结果、每日重点微博分析图表等,以及特定日期的相关数据文件夹;
2. 具体到每一天内的文件则进一步细化为新闻检索原始文本、当日提取出的关键词与TextRank权重值记录、生成词云图及各类情感倾向评估报告。
此项目通过综合运用自然语言处理技术探索了新冠疫情背景下公众情绪变化趋势,提供了对社会心态研究的新视角。