Advertisement

电商评论数据,中文语料库,全部为中文,采用空格分词技术,包含6万条样本。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
这是一份包含大量电商评论的中文语料数据集,该数据集完全采用中文文本,并已完成分词处理,总规模为60万条记录。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • ,60
    优质
    这是一套包含60万条记录的全中文电商评论数据集,采用空格进行词汇分割,为自然语言处理和机器学习研究提供了宝贵的资源。 电商评论中文语料,包含60万条分词数据。
  • 20(实际196千)
    优质
    本词库收录超过19万个词条,旨在提供全面、准确的中文词汇支持,适用于自然语言处理和信息检索等应用场景。 我整理了一个包含20万词汇(其中196,000个词)的中文分词词库,可以用于进行文本或文章的拆词工作。
  • IK,共35
    优质
    本词库包含超过35万条词条,特别整合了电子商务领域的专业词汇,支持高效精准的中文文本分析与处理。 ik中文分词词库包含35万词条(包括电商相关词汇)。
  • 四十的汉,适
    优质
    这是一款拥有四十万词条的强大汉语词库,专为提高中文文本的分词准确性而设计。无论是语言学家还是软件开发者,都能从中受益,提升其相关研究与应用效果。 文本段落件包含四十万条独特的汉语词汇,已经确认无误。每行一个词,并且没有重复的词汇,适用于中文分词任务。
  • 30
    优质
    本项目包含超过30万个词条的中文分词词库,旨在提升文本处理与自然语言理解系统的准确性和效率。 格式: 序号 单词 词频 词性 请参考相关标准:http://ictclas.org/ictclas_docs_003.html 和 http://hi.baidu.com/drkevinzhang/blog/category/ictclas 去掉链接后的内容如下: 格式: 序号 字 词频 词性 请参考相关标准。
  • Android应集:爬取的及一正负
    优质
    本数据集包含了从安卓应用商店爬取的大量用户评论,并精选出一万条评论作为正负样本,旨在为情感分析研究提供支持。 Android Apps评论数据集包含两个文件:positive10k和negative10k,这些文件包含了对安卓应用商店一些顶级应用程序的正面和负面评论。每个被评价的应用程序ID在appsid文件中列出。该数据集可用于创建使用监督机器学习算法并以此训练算法的项目。情感分析算法需要基于提供的数据进行训练,并随后对其性能进行测试。 该项目还包括一个简单的Python脚本,用于抓取Play商店中的应用并为评论添加字符串,这样用户可以根据自己的自定义需求构建新的数据集,只需修改appsid文件和Androidapp_reviewscrawler.py文件即可实现。为了减少请求的数量,此爬虫仅对每个应用程序发出一次请求以获取40条评论。 例如:可以创建一个只包含通讯类应用的评论的数据集,并且还可以根据需要添加更多的评论等。
  • (30目).txt
    优质
    本资源为中文分词词库文件,包含约30万个词条,适用于自然语言处理、机器学习等领域中进行文本分析和理解。 30万中文分词词库.txt
  • (TXT式)
    优质
    本资源提供大规模中文文本语料库,已进行精确分词处理,并以TXT文件格式呈现,便于学术研究和自然语言处理技术开发。 中文分词词库,供分词算法使用。
  • 2近义与同义
    优质
    本资源包收录超过2万组中文词汇,涵盖广泛的近义词和同义词,适用于语言学习、自然语言处理及文本分析等场景。 2万条中文近义词、同义词词库的部分内容如下格式: {name: 深远, nearWords: [深刻, 长久, 长远, 久远, 深入, 永远, 悠久, 远大, 深切]} {name: 尺书, nearWords: [函件, 信件, 文书, 文牍, 尺牍, 信札, 书信]} {name: 倡寮, nearWords: [妓院]} {name: 混充, nearWords: [假冒, 冒充]} {name: 遭到, nearWords: [受到]}
  • 10000情感
    优质
    本数据集包含了来自电商平台的10000条用户评论,旨在通过分析这些评论的情感倾向(正面、负面或中立),为产品评价和用户体验研究提供支持。 电商评论情感二分类数据集包含两列:label(1代表积极评价,0代表消极评价)和text(评论内容)。该数据集共有10000条中文评论,并已按照8:1:1的比例划分为训练集、验证集和测试集。可以参考示例项目中的处理方式,数据已经以numpy数组的形式划分好。