Advertisement

中文酒店评论情感分析数据集,包含1-5评分,适用于多分类任务,训练集含12000条评论,测试集含4000条评论,非UTF-8编码

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
这是一个针对中文酒店评论的情感分析数据集,涵盖1至5分的评分体系,适合进行多分类任务研究。该数据集包括12,000条训练样本及4,000条测试样本,但请注意其非UTF-8编码格式。 中文酒店情感分析语料包含1-5分的评分标签,适用于多分类任务。数据集包括训练集12000条记录和测试集4000条记录,非utf-8编码格式。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • 1-5120004000UTF-8
    优质
    这是一个针对中文酒店评论的情感分析数据集,涵盖1至5分的评分体系,适合进行多分类任务研究。该数据集包括12,000条训练样本及4,000条测试样本,但请注意其非UTF-8编码格式。 中文酒店情感分析语料包含1-5分的评分标签,适用于多分类任务。数据集包括训练集12000条记录和测试集4000条记录,非utf-8编码格式。
  • 10000的电商
    优质
    本数据集包含了来自电商平台的10000条用户评论,旨在通过分析这些评论的情感倾向(正面、负面或中立),为产品评价和用户体验研究提供支持。 电商评论情感二分类数据集包含两列:label(1代表积极评价,0代表消极评价)和text(评论内容)。该数据集共有10000条中文评论,并已按照8:1:1的比例划分为训练集、验证集和测试集。可以参考示例项目中的处理方式,数据已经以numpy数组的形式划分好。
  • -标识-
    优质
    本数据集包含酒店评论及其对应的情感标签,旨在用于训练和评估机器学习模型在自然语言处理中的情感分析能力。 在自然语言处理的情感分析任务中,需要使用一个包含2000条正向评价和2000条负向评价的训练集。
  • -UTF-8,10000
    优质
    本数据集包含10000条评论,旨在提供酒店业反馈分析所需的信息资源。每条评论皆以UTF-8格式编码,便于全球用户访问和利用。 现在网上大部分关于谭松波老师的评论语料资源的编码方式都是gb2312。本资源除了采用原始编码格式外,还提供了UTF-8编码格式。此外,该资源将所有语料分为pos.txt和neg.txt两个文件,每个文件中的每一行代表一个单独的txt文件,即一篇评论。
  • 两万
    优质
    本数据集收录了超过两万条关于酒店的评论,旨在通过分析顾客反馈来评估和改善酒店服务质量。 适合数据分析初学者进行简单的文本分类训练和文本情感分析。
  • 优质
    本数据集汇集了大量针对酒店服务与设施的中文评价文本,旨在为研究者提供丰富的资源以开发和评估基于深度学习的情感分析模型。 1. ChnSentiCorp-Htl-ba-2000:平衡语料集,包含正负类各1000篇。 2. ChnSentiCorp-Htl-ba-4000:平衡语料集,包含正负类各2000篇。 3. ChnSentiCorp-Htl-ba-6000:平衡语料集,包含正负类各3000篇。 4. ChnSentiCorp-Htl-unba-10000:非平衡语料集,其中正类为7000篇。
  • 微博4435960
    优质
    该微博评论数据集包含4,435,960条微博评论,为研究社交媒体用户行为、情感分析及热点话题提供了丰富的资源。 微博是一种基于用户关系的信息分享与传播平台,通过关注机制让用户可以分享简短的实时信息。它是一个广播式的社交媒体网络,支持多种接入方式,包括Web、Wap、Mail、App、IM以及SMS等,并且可以通过PC或手机等多种移动终端使用。微博允许用户以文字、图片和视频等形式即时分享并互动交流。
  • 5W电影
    优质
    这是一个包含约5万个针对英文电影的喜欢或不喜欢二元情感标签的评论数据集,可用于训练和评估文本情感分析模型。 已经分类好的英语电影影评数据集包含5万条记录,可用于机器学习。
  • 京东
    优质
    本数据集包含京东平台产品评论,旨在通过分析用户反馈提取情感倾向与关键词,助力商家优化服务及商品。 京东评论数据集包含了大量用户对商品的评价内容,这些评论涵盖了各种产品类别,为研究者提供了丰富的数据分析资源。
  • 10000正面和5000负面
    优质
    这是一个包含15000条评论的情感分析数据集,其中包括10000条正面评价与5000条负面评价,适用于训练机器学习模型识别文本中的情感倾向。 吸收了谭松波的非平衡酒店评论语料库(7000条正面评价和3000条负面评价,包含部分重复数据),并结合从携程网站抓取的数据。经过繁简转换、去重以及去除4字以下过短评论后,最终形成了一个包括10000条正面评价和5000条负面评价的评论数据集(每行代表一条独立评论)。欢迎下载使用!需要注意的是,这些正负面分类是根据携程网站上的“值得推荐”和“有待改善”栏目初步区分,并经过人工筛选以剔除错误归类的数据。因此可能存在一些误差,请帮助修正。