
maxent-ner-tagger:最大熵命名实体识别(NER)源代码。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
最大熵NER标记器可以方便地在线获取。该项目的核心目标在于实施和提供培训。 绝大多数构建器功能都依赖于实现,并由Python / Cython编写的、具备工业级实力的开源NLP库来完成。 为了进行分类任务,采用了基于最大熵(MaxEnt)分类器的方案。 具体实施细节方面,该任务所依赖的数据集是一个语料库,其主要内容来源于路透社的新闻数据。 数据文件已经完成了预处理步骤,并且每一行都包含了单个令牌,同时标注了词性(POS)标签、BIO(开始、内部、外部缩写)组块标签以及相应的NER标签。 实验结果表明,SpaCy的内置功能在进行工程处理方面表现尤为出色。 通常情况下,借助外部单词列表,例如作为一部分分布的Wikipedia地名词典等资源,可能会导致标记准确性的降低。 由于数据文件所占用的存储空间相对较大,因此最终提交的版本中并未包含地名词典的源代码及相关文件。 此外,我尝试通过将之前的状态或标记信息作为输入特征来提升模型的性能表现。 然而,令人惊讶的是,模型性能并没有显著提升,这可能源于每个标签都直接从模型中编码的相同特征。
全部评论 (0)
还没有任何评论哟~


