
基于Python的中文医学文本实体关系抽取源码、数据集及项目说明.zip
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本资源包提供了一个使用Python进行中文医学文本中实体关系自动抽取的完整解决方案,包括源代码、训练所需的数据集和详细的项目文档说明。
CHIP-2020-2中文医学文本实体关系抽取数据集包含了儿科训练语料和百种常见疾病训练语料。其中,儿科训练语料来源于518种儿科疾病,而百种常见疾病训练语料则来自于109种常见的病症类型。整个数据集中包含近7.5万条三元组信息以及2.8万个有关疾病的句子,并定义了总共53个schema。
由于临床实践中文本的指代关系较为复杂,在处理这类资料时,需要在每句话之前增加主题疾病实体,以更好地反映实际场景中的关联。具体做法是使用“@”符号与原文进行分割来明确标识这些新增加的主题信息。当三元组涉及多个句子的信息时,则会将相关句子拼接在一起,并通过spo_list字段的Combined子字段记录这一过程。
如果一个句子中包含多个三元组,那么每个三元组的相关信息都会在该句对应的spo_list字段内列出,“text”字段则用于保存原始文本内容。
全部评论 (0)
还没有任何评论哟~


