Advertisement

Android应用评论数据集:包含爬取的评论及一万条正负样本

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本数据集包含了从安卓应用商店爬取的大量用户评论,并精选出一万条评论作为正负样本,旨在为情感分析研究提供支持。 Android Apps评论数据集包含两个文件:positive10k和negative10k,这些文件包含了对安卓应用商店一些顶级应用程序的正面和负面评论。每个被评价的应用程序ID在appsid文件中列出。该数据集可用于创建使用监督机器学习算法并以此训练算法的项目。情感分析算法需要基于提供的数据进行训练,并随后对其性能进行测试。 该项目还包括一个简单的Python脚本,用于抓取Play商店中的应用并为评论添加字符串,这样用户可以根据自己的自定义需求构建新的数据集,只需修改appsid文件和Androidapp_reviewscrawler.py文件即可实现。为了减少请求的数量,此爬虫仅对每个应用程序发出一次请求以获取40条评论。 例如:可以创建一个只包含通讯类应用的评论的数据集,并且还可以根据需要添加更多的评论等。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Android
    优质
    本数据集包含了从安卓应用商店爬取的大量用户评论,并精选出一万条评论作为正负样本,旨在为情感分析研究提供支持。 Android Apps评论数据集包含两个文件:positive10k和negative10k,这些文件包含了对安卓应用商店一些顶级应用程序的正面和负面评论。每个被评价的应用程序ID在appsid文件中列出。该数据集可用于创建使用监督机器学习算法并以此训练算法的项目。情感分析算法需要基于提供的数据进行训练,并随后对其性能进行测试。 该项目还包括一个简单的Python脚本,用于抓取Play商店中的应用并为评论添加字符串,这样用户可以根据自己的自定义需求构建新的数据集,只需修改appsid文件和Androidapp_reviewscrawler.py文件即可实现。为了减少请求的数量,此爬虫仅对每个应用程序发出一次请求以获取40条评论。 例如:可以创建一个只包含通讯类应用的评论的数据集,并且还可以根据需要添加更多的评论等。
  • 酒店
    优质
    本数据集收录了超过两万条关于酒店的评论,旨在通过分析顾客反馈来评估和改善酒店服务质量。 适合数据分析初学者进行简单的文本分类训练和文本情感分析。
  • 京东(约1
    优质
    该数据集包含大约一万条来自京东平台的商品评论,旨在为研究者提供产品评价分析、情感分析及自然语言处理方面的丰富资源。 关于MacBook的京东评论的数据集,包含未标记的文本内容,可用于进行文本聚类分析。
  • 情感分析10000面和5000
    优质
    这是一个包含15000条评论的情感分析数据集,其中包括10000条正面评价与5000条负面评价,适用于训练机器学习模型识别文本中的情感倾向。 吸收了谭松波的非平衡酒店评论语料库(7000条正面评价和3000条负面评价,包含部分重复数据),并结合从携程网站抓取的数据。经过繁简转换、去重以及去除4字以下过短评论后,最终形成了一个包括10000条正面评价和5000条负面评价的评论数据集(每行代表一条独立评论)。欢迎下载使用!需要注意的是,这些正负面分类是根据携程网站上的“值得推荐”和“有待改善”栏目初步区分,并经过人工筛选以剔除错误归类的数据。因此可能存在一些误差,请帮助修正。
  • 微博4435960
    优质
    该微博评论数据集包含4,435,960条微博评论,为研究社交媒体用户行为、情感分析及热点话题提供了丰富的资源。 微博是一种基于用户关系的信息分享与传播平台,通过关注机制让用户可以分享简短的实时信息。它是一个广播式的社交媒体网络,支持多种接入方式,包括Web、Wap、Mail、App、IM以及SMS等,并且可以通过PC或手机等多种移动终端使用。微博允许用户以文字、图片和视频等形式即时分享并互动交流。
  • 豆瓣电影12户40虫程序.zip
    优质
    本资源包含一个用于收集豆瓣电影评论数据的Python爬虫程序,可获取12万用户超过40万条评论的数据集。适合进行数据分析和机器学习研究使用。 使用Python语言实现的豆瓣电影数据搜索下载程序,包含数据文件和源代码。
  • 酒店向与共计10000
    优质
    本数据集包含一万条评论,旨在评估酒店服务质量。其中一半为正面评价,另一半为负面评价,可用于训练情感分析模型或研究顾客反馈模式。 酒店评论数据集包括10000条评论,其中既有积极评价也有消极评价。
  • 豆瓣电影(40).xlsx
    优质
    本文件为豆瓣电影用户评论数据集合,包含超过40万条影评记录,每条评论均标注了评分、时间及具体内容,是研究用户观影偏好与评论文本分析的重要资源。 豆瓣电影用户评论数据包含40万条记录,每条评论包括以下字段:id、time(评论时间)、movieId(电影ID)、rating(评分)、content(评论内容)、creator(创建者)、addTime(添加时间)。
  • 书籍库(30
    优质
    本书籍评论数据库汇集了超过三十万条读者对各类书籍的评价与反馈,涵盖广泛的主题和体裁,为研究文学趋势、读者偏好及书评分析提供了宝贵的资源。 这个语料库包含30万条书籍评论,涵盖了各种长度的评论以及正面、负面和中性的评价。这些中文评论可以用于训练情感分析模型。