
Elasticsearch-HanLP分析器: 适用于Elasticsearch的HanLP插件
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
Elasticsearch-HanLP分析器是一款专为Elasticsearch设计的汉语文本处理插件,集成HanLP强大的自然语言处理能力,支持中文分词、实体识别等功能,大幅提升中文搜索和文本挖掘的效果。
Elasticsearch Analysis HanLP 是一个基于HanLP的分词器插件,提供了大部分HanLP中的分词方式。由于过去一年忙于其他事务,该插件几乎没有更新过。计划在年底进行一次大的更新。
今年我学习了ES向量插件(亚马逊设计的方式很有趣,重新设计了向量索引文件但依赖Lucene的文件管理系统),研究了一番知识图谱(JanusGraph)技术,并且最近开始探索Elasticsearch存储计算分离方案(基于共享存储)。
本次更新日志如下:
- 适配 Elasticsearch 版本从7.5.1到7.10.2
- 更新HanLP版本至1.7.8
- 修改分词流程,完全采用hankcs提供的hanlp-lucene-plugin实现。具体参见 com.hankcs.lucene.Segment 方法。
更新内容详见README文件(对于 7.5.1 版本进行了重新打包修正)。
全部评论 (0)
还没有任何评论哟~


