
Jiayan是一个自然语言处理工具包,它主要应用于古代汉语(包括古汉语、古文、文言文和文言)的处理。该工具包支持文言词库的构建、分词、词性标注、断句以及标点符号的添加。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
甲言(Jiayan) 简介,源自“Oracle 言”的含义,是一款专门针对古汉语处理的自然语言处理(NLP)工具包。 现有的通用汉语 NLP 工具主要依赖现代汉语作为核心语料库,因此在处理古代汉语时表现不佳,具体情况请参阅相关文档。 本项目的核心目标是为古汉语信息处理提供支持,旨在帮助那些致力于探索古文化宝藏的古汉语研究者和爱好者,更有效地分析和利用文言文献资料,从而在“文化遗产”中创造出“文化新产”。 当前版本包含了五项主要功能,并且还有更多功能正在积极开发中。 该工具包采用无监督的双向嵌入技术以及左右上下文信息进行文言词库的自动生成。此外,它还利用无监督、无词典的方法实现古汉语的自动分词。 借助词库合成功能产生的文言词典,结合有向无环图、句子最大概率路径和动态规划算法,对句子进行精确分词。 词性标注信息详尽如实地呈现给用户。
全部评论 (0)
还没有任何评论哟~


