Advertisement

NLPCC 2018知识图谱数据集

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
NLPCC 2018知识图谱数据集是针对中文环境设计的一系列大规模知识图谱相关任务的数据集合,涵盖实体链接、关系抽取等多个方面,旨在推动自然语言处理领域的研究进展。 在今年的NLPCC开放领域问答共享任务中,我们重点关注知识,并设立了三个子任务:(a)基于知识库的问题回答(KBQA);(b)基于知识库的问题生成(KBQG);以及(c)基于知识库的问题理解(KBQU)。KBQA的任务是根据给定的知识库来解答自然语言问题,而KBQG则是依据已有的知识三元组生成相应的自然语言问题。最后的子任务KBQU旨在将自然语言问题转换为对应的逻辑形式表达。前两个子任务使用中文进行,最后一个子任务则使用英文。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • NLPCC 2018
    优质
    NLPCC 2018知识图谱数据集是针对中文环境设计的一系列大规模知识图谱相关任务的数据集合,涵盖实体链接、关系抽取等多个方面,旨在推动自然语言处理领域的研究进展。 在今年的NLPCC开放领域问答共享任务中,我们重点关注知识,并设立了三个子任务:(a)基于知识库的问题回答(KBQA);(b)基于知识库的问题生成(KBQG);以及(c)基于知识库的问题理解(KBQU)。KBQA的任务是根据给定的知识库来解答自然语言问题,而KBQG则是依据已有的知识三元组生成相应的自然语言问题。最后的子任务KBQU旨在将自然语言问题转换为对应的逻辑形式表达。前两个子任务使用中文进行,最后一个子任务则使用英文。
  • family
    优质
    Family知识图谱数据集包含丰富的人类家庭关系信息,旨在促进家族树重建、遗传研究及智能系统中的语义理解与推理能力的发展。 家庭背景的知识图谱三元组数据包括entities.txt、facts.txt、relations.txt、test.txt、train.txt 和 valid.txt 这几个文件。
  • .zip
    优质
    《知识图谱数据集》包含各类结构化和非结构化的信息资源,旨在为学术研究及应用开发提供丰富的语义数据分析素材。 知识图谱学习资料供大家一起学习使用,帮助了解最新前沿动态。
  • FB15K
    优质
    FB15K知识图谱数据集是Freebase数据库的一个子集,包含约27万实体和14.9万事实三元组,广泛用于链接预测、关系抽取等任务的研究。 知识图谱FB15K数据集是一个广泛使用的基准测试集合,用于评估在大规模知识库上执行的链接预测任务的效果。这个数据集包含Freebase的一部分,并且经过精心设计以促进关系路径的学习和推理能力的研究。它包含了各种实体及其之间的复杂关系,为研究者提供了一个丰富的资源来开发和完善他们的模型和技术。
  • NELL-995
    优质
    NELL-995是卡内基梅隆大学开发的知识图谱数据集,包含超过百万实体和数十万关系的事实陈述,用于训练机器学习模型理解与生成知识图谱。 The dataset format is as follows: - **raw.kb**: Contains the raw KB data from the NELL system. - **kb_env_rl.txt**: Includes inverse triples of all triples in raw.kb. This file serves as the KG for reasoning purposes. - **entity2vec.bern/relation2vec.bern**: TransE embeddings used to represent RL states, which can be trained using TransX implementations by thunlpt (though specific implementation details are not provided here). The tasks directory contains specific reasoning relations and their associated files: - **tasks/${relation}/*.vec**: Trained TransH Embeddings. - **tasks/${relation}/*.vec_D**: Trained TransD Embeddings. - **tasks/${relation}/*.bern**: Trained TransR Embeddings, trained using the specified KB embeddings. - **tasks/${relation}/*.unif**: Trained TransE Embeddings. Additionally, there are directories for each relation containing: - **transX**: Triples used to train the KB embedding models. - **train.pairs** and **test.pairs**: Training and test triples in PRA format respectively. - **path_to_use.txt**: Reasoning paths discovered by the RL agent. - **path_stats.txt**: Path frequency of randomised BFS.
  • NLPCC 2017
    优质
    NLPCC 2017数据集是针对自然语言处理与中文计算领域所设计的一系列大规模测试资源集合,旨在促进相关技术的发展和应用。 第六届CCF自然语言处理和中文计算会议(NLPCC 2017)举行。
  • CCKS 2018报告.zip
    优质
    该文档包含CCKS 2018会议中关于知识图谱领域的研究报告和技术论文集,涵盖了知识表示、知识获取及应用等多个方面。 2018年9月发布的多篇知识图谱论文涵盖了该领域的几乎所有相关概念。这些Word版本的文档便于参考借鉴,是目前关于知识图谱非常优秀的中文文献。
  • 鸟类百科CSV
    优质
    《鸟类百科知识图谱CSV数据集》是一份详细记录了各类鸟类信息的数据集合,内容涵盖分类学、生态习性等多方面,旨在为研究者提供便捷的研究资料。 本项目知识来源于中国环境与发展国际合作委员会生物多样性工作组补充的《中国鸟类野外手册》电子版,该手册以CHM文件格式存储。这种格式是微软于1998年推出的基于HTML特性的帮助文档系统,可以理解为打包后的HTML文件。通过解析CHM文件,可以获得其中的HTML文本,并利用爬虫技术和正则表达式从中抽取信息。最终获取了包含1251种鸟类的信息,包括所属目、科和属分类、具体描述、虹膜颜色、嘴色、脚色、叫声特点、分布范围与状况以及习性等详细知识。
  • 清华大学科技
    优质
    该数据集由清华大学构建,涵盖多领域科技文献与专利信息,旨在促进科研界的知识图谱研究及应用发展。 SciKG是一个以科研为中心的大规模知识图谱数据集,目前涵盖计算机科学领域,包含概念、专家和论文三个主要部分。科技概念及其关系是从ACM计算分类系统中提取的,并辅以每个概念的定义(大多数来自维基百科)。
  • 融合的(DataMatching)
    优质
    数据融合的知识图谱(Data Matching)旨在通过先进的算法和技术,整合来自不同来源的数据,构建全面、准确且一致的信息网络。该领域致力于解决实体对齐、属性映射等挑战,促进大数据环境下知识的高效利用与共享。 Data matching involves concepts and techniques such as record linkage, entity resolution, and duplicate detection. These methods are used to identify and consolidate related data records across different databases or datasets. Record linkage aims to connect records that refer to the same entity but may have different identifiers. Entity resolution focuses on determining whether two pieces of information refer to the same real-world entity despite variations in how they are recorded. Duplicate detection is aimed at identifying multiple records within a single dataset that represent the same entity, helping to maintain data integrity and accuracy.