Advertisement

在疫情期间,利用情感词典和机器学习对新闻及微博评论进行情感分析。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
# 疫情背景下,利用情感词典和机器学习技术对新闻和微博评论进行情感分析研究# Data Science Basics in SWI, NJU, 2020-Fall> ## 计算社会学:基于自然语言处理技术的新冠疫情下的社会心态研究,由Cong Jin, YDJSIR, Sugar Xu于2020年SWI, NJU数据科学基础课程项目中完成。此版本为公开开源版本,而非开发环境使用的版本。## 文件结构: ```bash │ LICENSE │ README.md ├─Analyze # 包含用于数据分析的所有代码 ├─Data # 存储原始数据以及经过处理后的所有数据 ├─Report # 报告的相关源文件以及最终报告成品 └─Spyder # 爬虫代码 ``` 文件结构经过后续整理,与工作时目录状态有所不同,因此代码中涉及的路径需要进行适当调整后才能成功运行。原始报告中的数据在评分后已移除相关关键词。> ### `Data`目录下文件结构的详细描述:>> 该目录下共包含六个文件夹,分别命名为`stage0`至`stage6`>> ##### stage内文件目录结构:>> ```bash > │ COVkeywords-Stage-.json # 人工筛选后的疫情相关关键词 > │ COVkeywords-Stage.json # 未经筛选的疫情相关关键词 > │ keywords-Stage.json # 从荔枝新闻中提取的原始结果 > │ ratioByDate.png # 该阶段内每日疫情相关重点微博占比图表 > │ SaveTest.png # 疫情相关度分布拟合结果图1 > │ SaveTest_Fit.png # 疫情相关度分布拟合结果图2 > │ stageCOVWeibo.json # 该阶段内疫情相关重点微博(按时间先后排序) > │ stageCOVWeiboByImportance.json # 该阶段内疫情相关重点微博(按疫情相关度排序) > | SaveTest-热度.png # 各项热度指标占比图表 > │ stageInfo.json # 该阶段的基础信息 > │ weiboPolar.png # 疫情相关重点微博情感极性图表 > | weiboEmotion.png # 当前阶段的疫情相关微博情感倾向图表 ``` >> ##### 每个日期内的文件目录结构:>> ```bash YYYY-MM-DD > | jstvRAW.csv # 从荔枝新闻检索到的原始数据,包含疫情相关关键词信息。 | keywords.json # 荔枝新闻正文提取出来的关键词及其乘以100以后的TextRank权值。 这是一个文本分析的结果。 | wordcloud.html # 由荔枝新闻生成的词云图。 | blog-Scored.json # 每条微博都有一个评估过的、反映其与新冠病毒相关的程度的数值。 | blog-COV.json # 筛选后的新冠病毒相关的微博内容。 | blogInfo.json # 当日博客的相关基础信息。 | weiboEmotion.png # 基于心态词典的当日疫情相关微博重点评论情感分析生成的雷达图。 └─weiboEmotion.csv # 基于心态词典的当日疫情相关微博重点评论情感分析的原始数据文件。 > ```

全部评论 (0)

还没有任何评论哟~
客服
客服
  • ,运技术中的倾向
    优质
    本研究利用情感词典和机器学习方法,深入分析了疫情时期新闻报道和微博评论的情感色彩与民众心理变化。 在疫情背景下进行情感分析的研究项目主要基于情感词典以及机器学习技术对新闻报道与微博评论中的情绪进行量化评估。该项目由南京大学社会与行为科学学院2020年秋季学期数据科学基础课程的学员Cong Jin、YDJSIR和Sugar Xu共同完成,并已开源发布。 项目的文件结构包括以下几个部分: - `Analyze`:包含所有用于分析的数据处理代码。 - `Data`:存放原始数据及经过预处理后的各类结果,分为六个子目录(stage0至stage6),每个阶段内又进一步细分到具体日期的每日数据。 - `Report`:涵盖报告制作过程中的源文件和最终成品文档。 - `Spyder`:包含用于抓取相关网络信息的爬虫代码。 各个阶段的数据结构如下: 1. 每个子目录(如stage0至stage6)内包括疫情关键词筛选结果、每日重点微博分析图表等,以及特定日期的相关数据文件夹; 2. 具体到每一天内的文件则进一步细化为新闻检索原始文本、当日提取出的关键词与TextRank权重值记录、生成词云图及各类情感倾向评估报告。 此项目通过综合运用自然语言处理技术探索了新冠疫情背景下公众情绪变化趋势,提供了对社会心态研究的新视角。
  • 技术剖中的绪变化
    优质
    本研究运用情感词典和机器学习方法,深入分析疫情期间新闻报道及社交平台上的公众情绪表达,揭示民众态度的变化趋势。 在疫情背景下,利用情感词典和机器学习技术对新闻及微博评论进行情绪分析。
  • 倾向
    优质
    本研究采用情感词典分析技术对文本数据进行处理,通过赋予词汇正负面权重来量化内容的情感色彩,为情感分析提供有效支持。 程序使用Python编写,并配有详细的博客解析内容。详情可参阅相关文章。
  • 倾向
    优质
    本研究采用情感词典方法对文本内容进行分析,旨在量化文本的情感倾向,为情绪分析提供有效的评估工具。 程序使用Python编写,并附有详细的博客解析。详情可参考相关文章内容。
  • 倾向
    优质
    本研究采用多种情感词典对文本数据进行分析,通过量化词汇的情感极性来评定整体内容的积极、消极或中立情绪程度。 程序使用Python编写,并配有详细的博客解析介绍。
  • Python的源码、项目说明、数据集代码注释.zip
    优质
    本资源包含使用Python对新闻和微博评论进行情感分析的完整项目文件,包括源码、详尽的数据集以及机器学习算法应用,配有详细代码注释。 Python基于情感词典与机器学习的情感分析源码+项目文档+数据集+代码注释.zip 是一个已通过导师指导并获得97分的高分期末大作业设计项目,适用于计算机相关专业的在校学生、教师或企业员工使用。该资源无需修改即可直接运行,并且完整可靠。此项目的目的是帮助初学者学习和理解情感分析技术的应用,同时也为实际项目提供参考。 本项目适合于进行毕业设计、课程设计以及课程作业等任务,在项目的初期立项演示中也可作为范例借鉴。如果使用者具备一定的基础,可以在现有代码的基础上进一步修改以实现更多功能。 该项目基于自然语言处理(NLP)技术来研究新冠疫情下的社会心态,并且是开源版本而非开发环境中的内部使用版。以下是文件结构: ``` │ LICENSE │ README.md ├─Analyze # 包含数据分析过程中使用的所有代码 ├─Data # 原始数据和经过预处理后的数据集存放位置 ├─Report # 报告相关源文件及最终成品报告的目录 └─Spyder # 爬虫程序相关的代码 ``` 注意,由于此结构是整理后形成的,并非实际开发过程中使用的原始状态。因此,在运行时需要根据实际情况对路径进行适当调整以确保项目的顺利执行。 该资源提供了一个基于情感词典和机器学习方法的情感分析框架,旨在帮助用户深入理解如何利用NLP技术来进行社会心态的研究与探索。
  • Python的源码、项目文档、数据集代码注释合集.zip
    优质
    本资源包含使用Python通过情感词典和机器学习技术对新闻及微博评论进行情感分析的全套资料,包括源代码、详尽文档、数据集以及细致的代码注释。 <项目介绍>Python基于情感词典和机器学习对新闻和微博评论的情感分析源码+项目说明+数据集+代码注释.zip该资源内包含的是个人的毕业设计项目的完整源码,所有代码均已测试成功后上传,答辩评审平均分达到94.5分。此资源适合计算机相关专业(如人工智能、通信工程、自动化、软件工程等)的学生和老师或企业员工下载使用,既可作为学习材料也可为实际项目提供参考。如果基础较好,还可以在此基础上进行修改以实现更多功能。 计算社会学:基于NLP技术的新冠疫情下的社会心态研究此版本是公开发布的源码而非开发环境中的版本。 ## 文件结构 ``` │ LICENSE │ README.md ├─Analyze # 分析数据的过程中所使用的所有代码 ├─Data # 原始数据以及处理过后的所有数据 ├─Report # 报告相关源文件及最终报告成品 └─Spyder # 爬虫代码 ``` 该目录结构经过事后整理,并非工作时的实际状态,因此在运行前需要对路径进行适当修改。原始报告中的敏感信息已删除。 ### Data 目录下文件结构 `Data` 文件夹包含6个子文件夹(stage0 - stage6),每个阶段的内部文件如下: ``` │ COVkeywords-Stage-.json # 人工筛选后的疫情相关关键词 │ COVkeywords-Stage.json # 未经筛选的疫情关键词 │ keywords-Stage.json # 荔枝新闻中获取到的原始结果 │ ratioByDate.png # 当前阶段内每日疫情相关重点微博占比图 │ SaveTest.png # 疫情相关度分布拟合结果图1 │ SaveTest_Fit.png # 疫情相关度分布拟合结果图2 │ stageCOVWeibo.json # 该阶段内按时间排序的疫情相关重点微博 │ stageCOVWeiboByImportance.json # 按照疫情相关性进行排序的重点微博 | SaveTest-热度.png # 各项指标在当前阶段内的占比情况 │ stageInfo.json # 当前阶段的基本信息 │ weiboPolar.png # 疫情重点评论的情感极性图 │ weiboEmotion.png # 当前阶段疫情相关微博情感倾向图 ├─YYYY-MM-DD- └─其他日期文件夹 ``` 以上为项目的结构和内容概述,适合用于学习或项目参考。
  • Python基于
    优质
    本项目采用Python编程语言和情感词典技术,对文本数据进行深入分析,以量化表达内容中的正面、负面或中立情绪倾向。通过此方法,可以有效评估公众意见及市场趋势。 用Python实现基于情感词典的情感分析大数据处理。这段话已经去除所有不必要的元素,并保持了原意不变。
  • Python基于
    优质
    本项目运用Python编程语言和情感词典技术,开展文本数据的情感倾向性分析。通过量化词汇的情感色彩,自动识别并评估大量文本中的正面、负面或中立情绪。此方法在社交媒体监控、市场调研及用户反馈分析等领域展现出了广泛应用前景。 在数据分析领域内,情感分析是一项关键技术,用于理解、提取并量化文本中的情绪倾向性。本教程将重点介绍如何使用Python实现基于情感词典的情感分析方法。这一技术能够帮助我们了解公众对产品、服务或事件的态度,在市场营销、舆情监控以及社交媒体分析等领域具有重要价值。 进行情感分析的关键在于建立一个包含词汇及其相应正负面属性的字典,例如“好”通常被标记为正面情绪,“差”则被视为负面情绪。Python中常见的词典有SentiWordNet和SnowNLP等库。 实现基于Python的情感分析主要包括以下步骤: 1. **数据预处理**:清洗文本以去除无关字符(如标点符号、数字)、停用词以及特殊符号,这可以通过使用nltk或jieba库来完成。 2. **分词**:将句子分解为单词或短语是理解其内容的基础。对于中文而言,jieba是一个常用的分词工具。 3. **加载情感字典**:导入所需的情感字典并读取存储格式(如CSV、JSON等),转换成可查询的数据结构。 4. **计算情感得分**:遍历每个词汇查找其在情感字典中的极性,并根据出现频率和正负属性加权求和,得出整个文本的平均情绪评分。 5. **处理未出现在词典中的词汇**:对于不在字典里的词语可以采用词根化或使用TF-IDF、Word2Vec等技术来估计其情绪倾向。 6. **判断情感倾向**:根据计算得到的情感得分判定整体的情绪方向,如高于0为积极,低于0为消极,等于0可能是中性态度。 7. **结果可视化**:利用matplotlib或seaborn库将分析成果以图表形式展示以便于解读。 在实践中还可以考虑更复杂的模型和方法来提高情感分析的准确性。例如使用机器学习技术(如朴素贝叶斯、支持向量机等)进行分类,或者采用深度学习中的LSTM、BERT架构进一步优化效果。此外对于多种语言的支持可以借助TextBlob或spaCy这样的工具。 通过实践上述步骤并不断调整策略和改进情感字典结构,能够有效提升分析结果的精确度与实用性。