Advertisement

一份包含十万条微博数据集的压缩文件。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
收集到的103位微博用户的全部原创微博内容,截至2019年8月,已以CSV文件格式进行存储,每个用户对应一个单独的CSV文件。这些文件包含了48位女性用户的记录以及55位男性用户的记录,并分别进行了性别分类存储。每个CSV文件都包含诸如用户ID、微博文本内容、原始微博图片URL、原始视频URL、发布时间、发布工具信息、点赞数量、评论数量、转发数量、相关话题以及@用户等详细信息。总计包含超过十万条微博数据,这些数据可用于进行性别分类等各类自然语言处理任务的训练与研究。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • .rar
    优质
    该数据集包含来自新浪微博的十万条评论或话题讨论内容,旨在为社交媒体研究、自然语言处理及用户行为分析等提供丰富的语料资源。 我们收集了103个微博用户的原创微博数据,截止日期为2019年8月。每个用户的数据以CSV文件的形式存储,并且根据性别(48位女性和55位男性)分别存放于不同的文件夹中。每条记录包含以下信息:id、微博正文、原始图片URL、原始视频URL、发布日期、发布工具、点赞数、评论数、转发数、话题以及@用户。整个数据集包括超过十多万条微博,可以用于性别分类等自然语言处理任务的数据分析和研究工作。
  • 8
    优质
    这是一个庞大的微博数据集,包含了超过八万条用户原创的内容和评论,为社交媒体分析提供了宝贵的信息资源。 我们有8万多条微博数据,这些数据是在2014年5月3日至2014年5月11日期间收集的,涵盖了12个不同的主题。所有信息已整理为SQL脚本格式,方便直接导入数据库中使用。
  • 评论情感分析
    优质
    本数据集包含来自微博平台超过十万个评论样本,通过情感分析技术将其划分为正面、负面和中立三类,为研究社交媒体用户情绪提供了宝贵资源。 数据集nCoV_100k.labled.csv包含10万条用户标注的微博数据,其中包括微博id、发布时间、发布人账号、中文内容、微博图片链接(若无则为空列表)、微博视频链接(若无则为空列表)以及情感倾向等信息。具体格式如下: - 微博id:整型。 - 发布时间:xx月xx日 xx:xx 格式。 - 发布人账号:字符串形式。 - 中文内容:字符串形式。 - 微博文图片链接:url超链接,若无则为[](空列表)。 - 微博主视频链接:url超链接,若无则为[](空列表)。 - 情感倾向:取值包括1、0和-1。
  • 疫情初始(200).zip
    优质
    该资料包包含微博在新冠疫情初期收集的约200万条评论和帖子的数据集,为研究公众反应、信息传播及情绪分析提供了宝贵的资源。 200万条微博新冠疫情原始数据是进行情绪分析和社会分析的绝佳一手资料。
  • 84168
    优质
    该数据集包含84168条微博内容,旨在支持社交媒体分析、用户行为研究及自然语言处理等领域的学术与应用探索。 该数据集包含84168条新浪微博记录,在2014年5月3日至2014年5月11日期间采集的关于12个主题的微博信息,涉及63641名用户。文件格式为SQL脚本,可以直接导入数据库以进行话题聚类分析。
  • 10新闻
    优质
    这是一个庞大的数据集,内含十万篇新闻文章,为文本分析、情感分析和机器学习等应用提供了丰富的资源。 我们有一个包含98000多条新闻的数据集,涵盖了财经、房产、家居、教育、科技、社会、时政、体育、游戏和娱乐这十个分类。
  • 新浪情感分析标注12记录
    优质
    本数据集包含12万条新浪微博的情感分析标注记录,旨在为研究者提供高质量、大规模的中文社交媒体情感分析训练资源。 本资源包含人工标记的微博语料数据集,包括60,000条消极内容(文件名为pos.txt)和60,000条积极内容(文件名为neg.txt),适用于机器学习情感分析训练。
  • 评论4435960评论
    优质
    该微博评论数据集包含4,435,960条微博评论,为研究社交媒体用户行为、情感分析及热点话题提供了丰富的资源。 微博是一种基于用户关系的信息分享与传播平台,通过关注机制让用户可以分享简短的实时信息。它是一个广播式的社交媒体网络,支持多种接入方式,包括Web、Wap、Mail、App、IM以及SMS等,并且可以通过PC或手机等多种移动终端使用。微博允许用户以文字、图片和视频等形式即时分享并互动交流。
  • 5影评豆瓣
    优质
    本数据集包含了来自豆瓣网站的五万余条电影评论,旨在为研究者提供一个全面且丰富的中文语料库,用于情感分析、主题建模等自然语言处理任务。 我收集了豆瓣5万条影评的原始数据集,欢迎大家下载并尊重我的劳动成果。如果有时间我会继续提供更多的数据集。对于从事机器学习、自然语言处理和深度学习的研究者来说,这个资源非常有用。数据格式为:电影名称##评论星级(1-5星)##评论内容。