Advertisement

Coae中文微博数据集

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
Coae中文微博数据集是一个包含大量中文微博文本的数据集合,旨在支持情感分析、主题分类等自然语言处理任务的研究与开发。 中文微博语料库2014包含了COAE2014会议五个任务的评测数据。其中: - 任务一:面向新闻的情感关键句抽取与判定,在给定的一组已切分成句子的新闻文章中,需要识别每篇文章中的情感关键句。 - 任务二:跨语言情感倾向性分析,要求对多语言篇章级的数据集进行自动分析,并确定每个情感句是褒义、贬义还是中性的。 - 任务三:微博情感新词发现与判定。给定一个大规模的微博句子集合后,参赛系统需要识别出不在预设词典中的新的词语及其相应的褒义、贬义或中性倾向。 - 任务四:微博观点句识别,在提供的微博句子集中,对每个句子进行情感分析并判断其是正面、负面还是中性的。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Coae
    优质
    Coae中文微博数据集是一个包含大量中文微博文本的数据集合,旨在支持情感分析、主题分类等自然语言处理任务的研究与开发。 中文微博语料库2014包含了COAE2014会议五个任务的评测数据。其中: - 任务一:面向新闻的情感关键句抽取与判定,在给定的一组已切分成句子的新闻文章中,需要识别每篇文章中的情感关键句。 - 任务二:跨语言情感倾向性分析,要求对多语言篇章级的数据集进行自动分析,并确定每个情感句是褒义、贬义还是中性的。 - 任务三:微博情感新词发现与判定。给定一个大规模的微博句子集合后,参赛系统需要识别出不在预设词典中的新的词语及其相应的褒义、贬义或中性倾向。 - 任务四:微博观点句识别,在提供的微博句子集中,对每个句子进行情感分析并判断其是正面、负面还是中性的。
  • 优质
    《微博数据集》汇集了大量用户在微博平台上的发言与互动记录,是研究社交网络行为、情感分析及信息传播模式的重要资源。 需要一个包含新浪新浪微博内容数据集的压缩包来进行数据挖掘分析。
  • WeiboNER.zip
    优质
    该数据集为中文微博文本标注的数据集,专注于识别微博内容中的命名实体,包括人名、地名和组织机构名等信息。 微博语料库WeiboNER.zip包含了大量经过标注的微博数据,适用于自然语言处理任务中的命名实体识别研究。文件内包含详细的分类与标签,有助于研究人员深入分析中文社交媒体文本的特点。
  • 84168条
    优质
    该数据集包含84168条微博内容,旨在支持社交媒体分析、用户行为研究及自然语言处理等领域的学术与应用探索。 该数据集包含84168条新浪微博记录,在2014年5月3日至2014年5月11日期间采集的关于12个主题的微博信息,涉及63641名用户。文件格式为SQL脚本,可以直接导入数据库以进行话题聚类分析。
  • 情感分析二分类
    优质
    本数据集为中文微博文本构建,旨在进行情感分析研究。包含正面与负面两类标签,用于训练机器学习模型识别微博发布者情绪倾向。 中文微博情感数据库(2分类数据集)包含带情感标注的10500条微博语料:训练集为10000条(train.txt),测试集为500条(test.txt)。每行代表一条独立的微博记录,格式如下: - 第一个字段是该微博对应的唯一标识符mid。可以通过https://m.weibo.cn/status/ + mid 访问到这条微博的具体网页。(请注意部分微博可能已被博主删除) - 第二个字段为情感标签:0表示负面情绪;1表示正面情绪。 - 其余内容则构成实际的微博文本,其中的表情符号被统一转义成[xx]格式(例如:“doge”表情标记为[doge],“允悲”表情标记为[允悲])。此外,话题、地理定位信息及视频链接等均以{%xxxx%}形式表示。这些特殊字符可以通过正则表达式方便地进行清洗处理。
  • 情感分析训练模型
    优质
    本数据集为中文微博文本构建,旨在提供一个全面的情感分析训练资源。包含大量标注了正面、负面和中性情绪的微博帖子,适用于机器学习算法研究与开发。 可以用于研究自然语言处理、情感分析等相关课题以及训练模型等方面。
  • 最新的
    优质
    本数据集包含最新微博平台上的用户信息、帖子内容及互动记录等多样化数据资源,旨在为社交媒体研究和应用提供支持。 微博最新数据集包含以下字段:发表时间、所用设备、微博内容、点赞数、评论数、转发数、用户ID、用户名、VIP等级、关注数、粉丝数、性别、微博认证(简介)、等级、阳光信用以及注册时间。
  • 本情感分析的
    优质
    这是一个专门用于微博文本情感分析的研究数据集,包含大量标注了正面、负面或中性情绪状态的微博样本,旨在促进自然语言处理领域内的情感计算研究。 数据包括四种情感类型的文本段落件以及中文停词文本。
  • 评论的
    优质
    微博评论的数据集合是一份收集自中国社交媒体平台微博上的用户评论数据集,涵盖广泛话题,为情感分析、自然语言处理等研究提供资源。 提供两个微博评论数据集,一个用于训练,另一个用于测试。