
EurLex-多标签分类:针对法律文档的多重分类(Eur-Lex)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
EurLex-多标签分类项目致力于为欧盟法律文档进行精准的多重分类,利用先进的机器学习技术,提升法律信息检索和分析效率。
法律语料库的多重分类(EUR-Lex)涉及单个文本段落档通常具有多个语义方面的问题。一篇与政治有关的新闻文章可能同时包含贸易、技术和国防方面的内容。从机器学习的角度来看,我们可以将这些不同方面视为文档中的多类别标签。在这个项目中,我们研究了一个公开的多标签法律文本数据集,该数据集已经经过十年的手动标注处理,并包含了24种不同的语言版本的欧盟相关法律文件,包括条约、立法、判例法和立法建议等。这就是著名的EUR-Lex数据库,其中包含大约两万份文档和七千个类别标签。
每个文档中多个类别的偏斜分布以及多种语言的存在使得这个数据集成为一个有趣的研究对象。需要注意的是,在从GitHub下载代码时,并不会一同下载相关数据(因为超出了GitHub的限制)。在这种情况下,请直接访问指定链接来单独下载所需的数据文件,完成下载后即可进行下一步操作。
全部评论 (0)
还没有任何评论哟~


