Advertisement

ikanalyzer中文分词兼容Lucene 7.1.0

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
Ikanalyzer是一款兼容Lucene 7.1.0的高效中文分词插件,旨在为用户提供精准、快速的中文文本分析服务,广泛应用于搜索引擎和信息检索系统。 由于林良益先生在2012年之后未对IKAnalyzer进行更新,导致其不兼容后续Lucene分词接口的变化。因此,该jar包仅支持Lucene 6.0及以上版本。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • ikanalyzerLucene 7.1.0
    优质
    Ikanalyzer是一款兼容Lucene 7.1.0的高效中文分词插件,旨在为用户提供精准、快速的中文文本分析服务,广泛应用于搜索引擎和信息检索系统。 由于林良益先生在2012年之后未对IKAnalyzer进行更新,导致其不兼容后续Lucene分词接口的变化。因此,该jar包仅支持Lucene 6.0及以上版本。
  • Apache Lucene搜索与IKAnalyzer器工具类
    优质
    本项目旨在提供一个基于Apache Lucene的全文搜索引擎实现方案,并集成IKAnalyzer中文分词器以支持高效精准的中文搜索功能。 一、Lucene全文检索的Java代码: ```java package com.zcm.lucene; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.index.IndexReader; import org.apache.lucene.queryParser.MultiFieldQueryParser; import org.apache.lucene.search.BooleanClause; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import java.io.File; public class LuceneUtil { public static String LucenePath = D:/LuceneIndex; // 设置索引路径 /** * 创建全文检索的索引 */ public void createIndex(List list) { IndexWriter writer = new IndexWriter(LucenePath, new StandardAnalyzer(), true); for (int i=0; i getWords(String word){ StandardAnalyzer analyzer = new StandardAnalyzer(); TokenStream stream = analyzer.tokenStream(word,word); CharTermAttribute attr = stream.addAttribute(CharTermAttribute.class); try { stream.reset(); // 重置流 while (stream.incrementToken()) { String termStr = attr.toString(); if (!termStr.trim().equals()) { System.out.println(termStr); // 输出词语 } } stream.end(); } catch (IOException e) { e.printStackTrace(); } return null; // 返回null,此处仅为示例代码 } /** * 获取全文检索索引数量(条目) */ public int getIndexCount() throws IOException{ IndexReader reader = IndexReader.open(new File(LucenePath)); int count = reader.numDocs(); return count; } } ``` 二、Lucene用到的JavaBean代码: ```java package com.zcm.lucene; /** * Apache Lucene全文检索用到的Bean */ public class LuceneVO { private Integer aid; // 文章ID private String title; // 文章标题 private String remark; // 文章摘要 public Integer getAid() { return aid; } public void setAid(Integer aid) { this.aid = aid; } public String getTitle() { return title; } public void setTitle(String title) { this.title = title; } public String getRemark() { return remark; } public void setRemark(String remark) { this.remark = remark; } } ``` 以上代码实现了Apache Lucene全文检索的基本功能,包括创建索引、获取词语列表以及查询和管理文档。
  • IKAnalyzerJava项目的示例代码
    优质
    本项目提供基于IKAnalyzer的中文分词技术在Java中的应用示例,包括词汇处理、搜索引擎优化及文本分析等功能。 IKAnalyzer是一款非常易用的Java分词工具,支持自定义扩展词汇。这是一份完整的Java项目示例代码,可以直接使用而无需从其他地方下载。已添加了一些自定义词汇并进行了测试,确认功能正常。运行ika.java文件中的main方法即可开始使用。
  • 较为全面的IKAnalyzer停用表 stopwords.dic
    优质
    这段资料提供了一个详尽的中文停用词列表,专为IKAnalyzer分词器设计,旨在优化中文文本处理和信息检索系统的性能。 内容可以直接拷贝进stopword.dic文件使用(包含2614行常用停用词,涵盖中英文及符号等)。
  • IKAnalyzer 2012u6 开源轻量级工具包
    优质
    简介:IKAnalyzer是一款开源的中文分词工具包,适用于Java环境下的文本分析。它提供了丰富的词典和规则支持,能够满足多种场景下的分词需求,是信息检索、自然语言处理等应用的理想选择。 IK Analyzer 是一个开源的基于 Java 语言开发的轻量级中文分词工具包。自2006年12月推出1.0版本以来,IKAnalyzer已经更新了四个主要版本。最初它是为开源项目Lucene设计的一个结合词典和文法分析算法的中文分词组件。从3.0版开始,IK发展成为一个面向Java的公共分词组件,并且独立于Lucene项目,同时提供了针对Lucene的优化实现。在2012年版本中,IK实现了进一步改进。
  • 工具包:麻将的开源方案,包含Web API和Lucene支持,适用于混合
    优质
    这是一款功能强大的中文分词工具包,特别针对麻将术语进行了优化,并兼容中英文混合文本。该工具集成了Web API接口及Lucene插件扩展,助力高效精准的信息检索与处理。 麻将一直是广受欢迎的传统娱乐活动,字牌的组合千变万化。汉字的组合也是变化多端,通过研究麻将中的汉字组合,可以发现汉语的秘密,并为自然语言处理提供有效的中文分词工具。 麻将是基于Scala的语言实现的一个中文分词软件包。这个项目的核心是最大概率分词方法,专为搜索引擎、文本信息抽取和自然语言处理设计。该项目性能优异且速度快,易于使用并具有高测试覆盖率。 关于分词歧义的解决方案:虽然目前有多种不同的分词方法,但越来越多的研究认为将分词视为序列标注问题是有益的。然而,在实际应用中基于字典的方法因其速度优势而被广泛采用,并能快速应用于各个领域。
  • 将搜狗库转换为IKAnalyzer库(仅含汉字)
    优质
    本工具提供了一种简便的方法,用于将搜狗输入法的词库文件转换成适用于IKAnalyzer中文分词器的格式,去除了所有非汉字内容,便于用户直接使用。 2020年的所有搜狗词库已全部转换为txt格式的纯汉字文本段落件,可以直接用于IK使用。如遇编码问题,请重新保存为UTF-8格式。
  • PD4ML生成PDF(
    优质
    PD4ML是一款用于生成高质量PDF文档的Java库,特别优化支持中文内容显示,确保中文字体和格式的完美呈现。 为了找到一个简单易用的导出PDF的技术方案,我花费了几天时间终于找到了pd4ml,并且为了解决中文乱码问题查阅了许多资料,耗费了不少精力才解决了这一难题。现在把我的解决方案分享给大家,希望能对大家有所帮助。
  • Sublime加强版,
    优质
    这是一款基于Sublime Text编辑器改进而来的新版本软件,特别优化了对中文的支持和显示效果,提供更流畅的编码体验。 Sublime支持中文且无需破解,具备增强功能,方便开发者使用并提高开发效率。
  • labelimg版exe_win10
    优质
    LabelImg中文版EXE是一款针对Windows 10操作系统的图像标注工具,提供简体中文界面和支持,便于用户进行数据标记和机器学习训练。 Yolov5标注工具已经打包成exe,在Windows 10上测试通过,但尚未在Windows 7上进行测试,请自行验证。