Advertisement

带有话题标记的新浪微博数据集SQL文件

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
该数据集包含大量带话题标签的新浪微博内容,以SQL文件形式存储,便于进行社交媒体分析、话题追踪及用户行为研究。 本数据集包含63,641个新浪微博用户的详细资料及84,168条关于十二个特定主题的微博内容记录。用户信息包括:用户ID(uid)、昵称、姓名、所在地、主页URL、性别、粉丝数量、关注人数、微博总数和收藏数,以及账户创建时间。此外,数据集还包含有关于2014年5月3日至2014年5月11日间发布的关于十二个主题的微博信息,包括:微博ID(mid)、发布时间、内容、来源地、转发次数、评论数量和点赞数等。 另外还有两个子部分构成的数据集。一个是包含用户之间的关注关系的信息,总计有139,171条记录;另一个则是有关于28,759次的微博被转发表信息。这些数据有助于研究者理解新浪微博用户的社交网络结构及其活动模式,并且可以用于分析不同主题下的讨论趋势和热点问题。 十二个特定的主题包括:魅族、小米、火箭队、林书豪、恒大足球俱乐部、韩剧、雾霾天气现象、“同桌的你”电影话题,以及公务员考试等。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • SQL
    优质
    该数据集包含大量带话题标签的新浪微博内容,以SQL文件形式存储,便于进行社交媒体分析、话题追踪及用户行为研究。 本数据集包含63,641个新浪微博用户的详细资料及84,168条关于十二个特定主题的微博内容记录。用户信息包括:用户ID(uid)、昵称、姓名、所在地、主页URL、性别、粉丝数量、关注人数、微博总数和收藏数,以及账户创建时间。此外,数据集还包含有关于2014年5月3日至2014年5月11日间发布的关于十二个主题的微博信息,包括:微博ID(mid)、发布时间、内容、来源地、转发次数、评论数量和点赞数等。 另外还有两个子部分构成的数据集。一个是包含用户之间的关注关系的信息,总计有139,171条记录;另一个则是有关于28,759次的微博被转发表信息。这些数据有助于研究者理解新浪微博用户的社交网络结构及其活动模式,并且可以用于分析不同主题下的讨论趋势和热点问题。 十二个特定的主题包括:魅族、小米、火箭队、林书豪、恒大足球俱乐部、韩剧、雾霾天气现象、“同桌的你”电影话题,以及公务员考试等。
  • 情感weibo-senti-100k
    优质
    该数据集包含10万条带有正面或负面情感标签的新浪微博,用于训练和评估文本情感分析模型。 weibo_senti_100k 数据集介绍:该数据集包含大约 10 万条新浪微博评论,并附有情感标注,其中正向与负向的评论各约5万条。推荐用于进行情感分析、观点倾向性研究等实验。 数据来源为网上搜集的新浪微博原数据集,共包括了12万条评论及其相应的情感标记信息。经过加工处理后,整合成一份统一编码(UTF-8)且去重后的CSV文件。 加载此数据集的方法如下: ```python import pandas as pd path = weibo_senti_100k文件夹所在路径 pd_all = pd.read_csv(path + /weibo_senti_100k.csv) print(评论总数:, pd_all.shape[0]) print(正向评论数:, pd_all[pd_all.label == 1].shape[0]) print(负向评论数:, pd_all[pd_all.label == 0].shape[0]) ``` 执行上述代码后,输出结果为: - 总体评论数量: 119,988 - 正向情感的评论数量: (具体数值需运行脚本获取) - 负向情感的评论数量:(具体数值需运行脚本获取)
  • 84168条来自
    优质
    该数据集包含84168条新浪微博记录,旨在为研究社交媒体上的信息传播、用户行为及社会影响力分析提供真实可靠的数据支持。 这段文字描述了一组微博数据集,包含8万多条在2014年5月3日至2014年5月11日期间采集的信息,涵盖了12个主题的内容。这些数据涉及63,641名用户,并且存储在一个SQL脚本段落件中,可以直接导入数据库使用。
  • 使用Python抓取爬虫
    优质
    本教程介绍如何利用Python编写代码来抓取新浪微博的数据,帮助用户掌握构建微博数据采集器的方法和技术。通过学习,读者能够创建一个实用的新浪微博爬虫工具。 本程序可以连续爬取一个或多个新浪微博用户的数据(例如胡歌、迪丽热巴、郭碧婷),并将结果保存到文件或数据库中。这些数据几乎涵盖了用户微博的所有信息,包括用户基本信息和微博内容两大类。由于详情较多,在此不再赘述,请参考获取的字段以了解具体内容。 如果仅需收集用户的个人信息,程序同样支持只爬取微博用户信息的功能设置实现这一需求。为了访问新浪微博的数据,您需要通过cookie来授权登录;具体如何获得所需的cookie会在后续说明中详细讲解。如果您不希望使用cookie,则可以选用免cookie版本,两者的主要功能基本一致。 此外,本程序还提供了多种数据保存方式:包括txt、csv(默认)、json(可选)等文件格式以及MySQL、MongoDB和SQLite数据库选项。同时支持下载微博中的图片及视频资源,具体如下: - 原创微博的原始图片 - 转发微博的原始图片 - 原创微博内的视频 - 转发微博内的视频 对于免cookie版本特有的功能: - 下载原创微博Live Photo中的视频。 - 下载转发微博Live Photo中的视频。
  • 情感分析注语料含12万条_
    优质
    本数据集包含来自新浪微博的12万条评论和评论片段,旨在提供一个全面的情感分析资源。每个样本都经过细致的手工标注,以反映用户在微博平台上的真实情绪表达。这一资源对于研究社交媒体情感分析具有重要价值。 本资源包含人工标记的微博语料,分为积极和消极两类文本,每类各60000条记录,适用于机器学习中的情感分析训练。
  • Python获取合.zip
    优质
    这是一个包含使用Python脚本从新浪微博收集的数据集的压缩文件。内含各类微博信息和用户数据,适用于社交网络分析与研究。 Python爬取的新浪微博数据集.zip
  • 语言消歧.zip
    优质
    该数据集为新浪微博文本设计,包含大量标注了用户、话题等实体类型及情感极性的微博示例,旨在推动中文社交媒体语言处理研究。 新浪微博的语义资料。
  • 情感分析含12万条
    优质
    本数据集包含12万条新浪微博的情感分析标注记录,旨在为研究者提供一个全面了解公众情绪变化及社交媒体影响的研究工具。 本资源包含人工标记的微博语料,分为积极和消极两类,每类各60000条记录。这些数据适用于机器学习中的情感分析训练。
  • 情感分析含12万条
    优质
    本数据集包含12万条新浪微博的情感标注信息,旨在为情绪计算和社交媒体数据分析提供研究资源。 本资源包含人工标记的微博语料,分为积极与消极两类文件(分别为pos.txt 和 neg.txt),每类各60000条数据,适用于机器学习中的情感分析训练。
  • 情感分析含12万条
    优质
    本数据库包含来自新浪微博超过12万条评论的数据集,并对其进行了情感分析的人工标注,为研究者提供了丰富的社交媒体文本与情感分类资源。 本资源包含人工标记的微博语料,分为积极与消极两类文本段落件(各60000条),适用于机器学习中的情感分析训练数据。