Advertisement

中文文本匹配的数据集(LCQMC、BQ-Corpus、STS-B、ATEC)

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
该数据集包含四个广泛使用的中文自然语言处理任务的数据集,包括LCQMC、BQ-Corpus、STS-B和ATEC,主要用于评估模型在句子相似度及问答匹配上的性能。 LCQMC数据集是由哈工大发布的一个中文问答匹配的数据集合,包含总样本数260,068个,其中149,226个为匹配样本,110,842个为不匹配样本。 另一个相关的是中文SNLI数据集(全称:大规模中英文自然语言推理和语义相似度计算数据集),该数据集通过翻译及部分人工修正的方法从英文原版生成,旨在缓解中文自然语言推理和语义相似度计算的数据不足问题。2019年12月1日,此数据集CMNLI已被CLUE收录,并被纳入了“Chinese Multi-Genre NLI”任务中。 该数据集中训练样本格式如下: ```json { sentence1: 你敢不敢像拉斯柯尔尼科夫那样,勇于面对现实,拒绝那些管理小人物的琐碎规则?, sentence2: 你会站起来揭发镇上所有的邪恶领主吗?, gold_label: neutral } ```

全部评论 (0)

还没有任何评论哟~
客服
客服
  • LCQMCBQ-CorpusSTS-BATEC
    优质
    该数据集包含四个广泛使用的中文自然语言处理任务的数据集,包括LCQMC、BQ-Corpus、STS-B和ATEC,主要用于评估模型在句子相似度及问答匹配上的性能。 LCQMC数据集是由哈工大发布的一个中文问答匹配的数据集合,包含总样本数260,068个,其中149,226个为匹配样本,110,842个为不匹配样本。 另一个相关的是中文SNLI数据集(全称:大规模中英文自然语言推理和语义相似度计算数据集),该数据集通过翻译及部分人工修正的方法从英文原版生成,旨在缓解中文自然语言推理和语义相似度计算的数据不足问题。2019年12月1日,此数据集CMNLI已被CLUE收录,并被纳入了“Chinese Multi-Genre NLI”任务中。 该数据集中训练样本格式如下: ```json { sentence1: 你敢不敢像拉斯柯尔尼科夫那样,勇于面对现实,拒绝那些管理小人物的琐碎规则?, sentence2: 你会站起来揭发镇上所有的邪恶领主吗?, gold_label: neutral } ```
  • STS-B(打分类型)
    优质
    STS-B中文数据集(打分类型)包含大量汉语句子对及其语义相似度评分,旨在评估模型对于文本语义理解及相似度判断的能力。 英文打分数据集STS-B的部分中文翻译。
  • LCQMCLCQMC
    优质
    LCQMC数据集是一个用于中文语义匹配任务的大型数据集,包含大量成对的问答句,旨在评估和提升机器理解与生成自然语言的能力。 哈工大文本匹配数据集LCQMC是由哈尔滨工业大学在自然语言处理国际顶会COLING2018上构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同。
  • 相似度、推理和——XNLI
    优质
    XNLI是一个多语种自然语言理解的数据集,它基于英文的GLUE基准测试中的MNLI数据集,并将其扩展到包括简体中文在内的十五种低资源语言中。该数据集旨在促进跨语言自然语言推理任务的研究与应用,帮助模型更好地理解和处理不同语言间的逻辑关系和语义差异。 中文文本相似度、文本推理和文本匹配数据集——XNLI提供了一个多语言自然语言理解的基准测试平台。该数据集基于英文自然逻辑推理(MNLI)语料库,并通过众包翻译扩展到了15种不同的语言,包括阿拉伯语、德语、希腊语等。XNLI旨在评估模型在跨语言任务中的表现能力,特别是在缺乏大量标注训练数据的情况下如何进行有效的迁移学习和多语言建模。
  • 相似度、推理和——CCKS2018
    优质
    中文文本相似度、推理和匹配数据集——CCKS2018是针对中文自然语言处理设计的数据集合,旨在促进文本理解、语义分析及知识图谱构建的研究与应用。 中文文本相似度/文本推理/文本匹配数据集——CCKS2018
  • 相似度、推理和-OCNLI
    优质
    OCNLI是专为中文自然语言理解设计的数据集,专注于句子间的逻辑关系判断,包括蕴含、中立及矛盾等类型,旨在推动中文文本推理技术的发展。 OCNLI(中文开放类别近义词消歧语料库)是一个专为自然语言处理任务设计的数据集,包括文本相似度、文本推理以及文本匹配等领域。这些技术在智能问答系统、机器翻译、情感分析及信息检索等多个应用场景中发挥着重要作用。 **1. 文本相似度** 计算两段中文文本之间的语义接近程度是这项研究的核心内容之一。OCNLI提供了大量经过仔细标注的句子对,用以训练模型识别出两个句子是否具有相近的意义。此技术可以应用于搜索引擎优化、新闻推荐系统和聊天机器人等领域。 **2. 文本推理** 从给定的信息中推断隐藏逻辑关系的能力是文本推理的关键所在。通过判断蕴含、矛盾或中立等不同类型的语义关联,OCNLI数据集有助于开发能够理解复杂语言结构的AI模型。例如,在自动问答系统中使用这种技术可以使机器更好地理解和回答问题。 **3. 文本匹配** 确定两个文本在某些方面是否一致也是重要的任务之一,比如主题的一致性或信息的相关度等。利用OCNLI所提供的大量实例,可以训练出能够有效识别和比较不同文档间关系的模型。这尤其适用于推荐系统中对用户兴趣内容进行精准推送的应用场景。 **4. 数据集结构** 该数据集由多个部分构成,并包含成千上万经过精心挑选或抽取出来的句子对,每一对都有明确的关系标签(如“蕴含”、“矛盾”或者“中立”)。这种多样性和复杂性的设计使得它能够支持深度学习模型的训练和评估工作。 **5. 应用场景** OCNLI数据集可用于微调各种自然语言处理预训练模型,例如BERT、RoBERTa等。除了学术研究中的算法测试外,在商业环境中也可以帮助开发更加智能的语言理解和生成工具,从而提高用户体验质量。 总之,作为中文文本处理的重要资源库之一,OCNLI为科研人员和开发者提供了一个宝贵的实验平台,并推动了自然语言处理技术的进步和发展。通过深入理解并利用这个数据集,我们可以构建出更加强大且智能化的AI系统以服务于社会各个领域的需求。
  • 语义相似性(dataset-sts).zip
    优质
    语义文本相似性数据集(dataset-sts)包含了多领域、多种语言的文本对,旨在评估机器理解自然语言的能力。通过标注每对文本在语义上的相似度评分,该数据集为研究语义理解和匹配提供了宝贵的资源。 dataset-sts是基于语义文本相似性的数据集。在这样的任务中,典型的A学习任务包括分类句子或文档序列,换句话说就是逼近函数f_1(s) ∈ [0,1](例如:情绪判断等)。然而,在实际应用中存在许多难以解决的问题,并且这些问题通常涉及对句的理解和处理。
  • 相似度、推理和——Chinese SNLI 和 MultiNli
    优质
    这段简介可以描述为:中文SNLI与MultiNli是两个重要的数据集,专注于中文文本的相似度评估、逻辑推理及语义匹配等任务,旨在促进自然语言处理领域的发展。 中文文本相似度、文本推理和文本匹配数据集包括Chinese SNLI MultiNli。
  • 英语相似度/推理/——MSRP
    优质
    MSRP(Multi-Source Rationalization for Paraphrase Identification)是一个用于评估和开发英语文本相似度、推理及匹配技术的数据集,包含大量句子对及其标签,广泛应用于自然语言处理领域。 英文文本相似度/文本推理/文本匹配数据集——MSRP是一个用于评估模型在理解句子之间语义关系能力的数据集合。该数据集中包含成对的英语句子,并且每个句子对都被标记为“相似”或“不相似”。这个资源对于研究和开发自然语言处理系统,特别是涉及到机器阅读理解和问答系统的任务非常有用。