Advertisement

STS-B中文数据集(打分类型)

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
STS-B中文数据集(打分类型)包含大量汉语句子对及其语义相似度评分,旨在评估模型对于文本语义理解及相似度判断的能力。 英文打分数据集STS-B的部分中文翻译。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • STS-B
    优质
    STS-B中文数据集(打分类型)包含大量汉语句子对及其语义相似度评分,旨在评估模型对于文本语义理解及相似度判断的能力。 英文打分数据集STS-B的部分中文翻译。
  • 本匹配的(LCQMC、BQ-Corpus、STS-B、ATEC)
    优质
    该数据集包含四个广泛使用的中文自然语言处理任务的数据集,包括LCQMC、BQ-Corpus、STS-B和ATEC,主要用于评估模型在句子相似度及问答匹配上的性能。 LCQMC数据集是由哈工大发布的一个中文问答匹配的数据集合,包含总样本数260,068个,其中149,226个为匹配样本,110,842个为不匹配样本。 另一个相关的是中文SNLI数据集(全称:大规模中英文自然语言推理和语义相似度计算数据集),该数据集通过翻译及部分人工修正的方法从英文原版生成,旨在缓解中文自然语言推理和语义相似度计算的数据不足问题。2019年12月1日,此数据集CMNLI已被CLUE收录,并被纳入了“Chinese Multi-Genre NLI”任务中。 该数据集中训练样本格式如下: ```json { sentence1: 你敢不敢像拉斯柯尔尼科夫那样,勇于面对现实,拒绝那些管理小人物的琐碎规则?, sentence2: 你会站起来揭发镇上所有的邪恶领主吗?, gold_label: neutral } ```
  • 句子与工具.zip
    优质
    该资料包包含了一个用于研究和开发的中文句子类型分类数据集及相关的工具。它旨在帮助学者、开发者深入分析并理解中文文本结构,提升自然语言处理技术的应用水平。 本资源主要包括中文句子类型分类工具sentypes_v1.2及数据集。该工具对句子类型的判别优先级如下:正反问句、反问句、选择问句、疑问词问句、是非问句;祈使句、把字句、被子句、比较句、存在句、是字句和连字句;陈述句和其他句子。 sentypes_v1.2 工具包含五个命令参数:输入文件,输出文件,分词模型(cws.model),词性标注模型(pos.model)以及句法分析模型(parser.model)。
  • .zip
    优质
    本资料包包含多种中文文本分类的数据集,适用于训练和测试机器学习模型在自然语言处理任务中的性能。 针对新闻栏目的中文文本分类任务,每个栏目包含5000条新闻:体育、时政、房产、家居、财经、时尚、科技、教育和娱乐。通过对这些新闻内容进行训练,可以构建一个模型来预测每条新闻所属的栏目。
  • CNEWS
    优质
    CNEWS中文文本分类数据集是一套包含新闻文章及其对应类别的大型数据集合,旨在促进中文自然语言处理领域的研究与应用。 cnews中文文本分类数据集是由清华大学根据新浪新闻RSS订阅频道2005年至2011年间的历史数据筛选过滤生成的。训练过程的具体细节可以在我的博客中找到。
  • 新闻
    优质
    这是一个包含大量新闻文章的数据库,旨在为研究人员和开发人员提供一个全面、多元化的资源库,以促进新闻文本自动分类技术的发展与应用。 该数据集包含大规模的新闻文本分类样本,涵盖了多个领域,并按文件夹形式组织。这些数据不仅可以用于进行文本分类实验,数量充足的情况下还可以用来训练BERT模型。
  • 优质
    文本分类数据集是一系列被预先标记好类别的文档集合,用于训练和测试机器学习模型识别新文本的主题或情感等属性。 Spark MLlib实现的中文文本分类使用了Naive Bayes算法。训练模型所需的语料库很重要,在这里我采用的是搜狗提供的早期分类语料库,仅供学习测试之用。
  • 语义本相似性(dataset-sts).zip
    优质
    语义文本相似性数据集(dataset-sts)包含了多领域、多种语言的文本对,旨在评估机器理解自然语言的能力。通过标注每对文本在语义上的相似度评分,该数据集为研究语义理解和匹配提供了宝贵的资源。 dataset-sts是基于语义文本相似性的数据集。在这样的任务中,典型的A学习任务包括分类句子或文档序列,换句话说就是逼近函数f_1(s) ∈ [0,1](例如:情绪判断等)。然而,在实际应用中存在许多难以解决的问题,并且这些问题通常涉及对句的理解和处理。
  • 新闻
    优质
    该数据集包含了大量经过人工标注的中文新闻文本样本,适用于训练和评估新闻文本分类模型的性能。 资源为新闻类的中文文本分类数据集,能够满足机器学习和文字分析方面的需求。
  • VOC的各车辆
    优质
    本数据集包含VOC标准下丰富多样的车辆图像分类样本,涵盖多种车型与场景,旨在促进智能交通系统和自动驾驶技术的研发。 VOC数据集包含不同车辆类别的分类数据集。