Advertisement

Lucene全文检索技术以及IK分词工具类。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
该工具类,LuceneUtil,利用Apache Lucene实现全文检索和IKAnalyzer分词功能。它提供了创建索引、单个文档索引添加、多个文档索引添加、更新索引(单个)、更新多个文档索引、删除索引(单个)和删除多个文档索引等方法。LuceneUtil类包含一个静态变量LucenePath,用于指定索引文件的存储路径,默认为“d://index”。 具体来说,创建索引的方法通过指定分析器(默认使用StandardAnalyzer)和IndexWriter来构建Lucene索引。 该方法接收一个包含LuceneVO对象的列表作为输入,遍历列表中的每个对象,将其内容添加到IndexWriter中,最终完成索引的创建。 此外,该类还提供了一个用于IKAnalyzer分词的方法tokenWord,用于将输入的字符串进行分词处理并返回分词结果列表。 同时提供了更新和删除索引的方法。 LuceneVO是一个Java Bean类,用于封装Lucene索引中的文档信息。它包含三个属性:aid(文章ID),title(文章标题),remark(文章摘要)。 该Bean被广泛应用于Lucene全文检索系统中以存储和管理文档数据。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Apache Lucene与IKAnalyzer
    优质
    本项目旨在提供一个基于Apache Lucene的全文搜索引擎实现方案,并集成IKAnalyzer中文分词器以支持高效精准的中文搜索功能。 一、Lucene全文检索的Java代码: ```java package com.zcm.lucene; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.index.IndexReader; import org.apache.lucene.queryParser.MultiFieldQueryParser; import org.apache.lucene.search.BooleanClause; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import java.io.File; public class LuceneUtil { public static String LucenePath = D:/LuceneIndex; // 设置索引路径 /** * 创建全文检索的索引 */ public void createIndex(List list) { IndexWriter writer = new IndexWriter(LucenePath, new StandardAnalyzer(), true); for (int i=0; i getWords(String word){ StandardAnalyzer analyzer = new StandardAnalyzer(); TokenStream stream = analyzer.tokenStream(word,word); CharTermAttribute attr = stream.addAttribute(CharTermAttribute.class); try { stream.reset(); // 重置流 while (stream.incrementToken()) { String termStr = attr.toString(); if (!termStr.trim().equals()) { System.out.println(termStr); // 输出词语 } } stream.end(); } catch (IOException e) { e.printStackTrace(); } return null; // 返回null,此处仅为示例代码 } /** * 获取全文检索索引数量(条目) */ public int getIndexCount() throws IOException{ IndexReader reader = IndexReader.open(new File(LucenePath)); int count = reader.numDocs(); return count; } } ``` 二、Lucene用到的JavaBean代码: ```java package com.zcm.lucene; /** * Apache Lucene全文检索用到的Bean */ public class LuceneVO { private Integer aid; // 文章ID private String title; // 文章标题 private String remark; // 文章摘要 public Integer getAid() { return aid; } public void setAid(Integer aid) { this.aid = aid; } public String getTitle() { return title; } public void setTitle(String title) { this.title = title; } public String getRemark() { return remark; } public void setRemark(String remark) { this.remark = remark; } } ``` 以上代码实现了Apache Lucene全文检索的基本功能,包括创建索引、获取词语列表以及查询和管理文档。
  • Lucene系统的Java源码(信息
    优质
    本教程深入解析Lucene全文检索系统的核心机制与实现细节,通过分析其Java源代码帮助读者理解并掌握信息检索技术。适合开发者和研究人员学习参考。 Lucene文档检索系统使用Java源码开发,并提供可执行程序支持多种文件格式的搜索功能,包括PDF、DOC、XLS、PPT、HTML以及TXT。
  • Lucene实例代码
    优质
    本项目提供了一系列基于Apache Lucene的Java实现示例代码,旨在帮助开发者快速理解和应用Lucene进行高效全文检索。 lucene全文检索案例源码提供了一个详细的实现示例,帮助开发者理解和应用Lucene的全文搜索功能。代码展示了如何创建索引、进行查询以及处理结果等方面的内容。这为学习或项目中使用Lucene提供了很好的参考。
  • 基于Lucene功能实现(FileUtil
    优质
    本文章介绍了如何使用Java开发中的Lucene库来实现高效的全文检索功能,并详细讲解了其中的FileUtil类的应用。通过该工具类,开发者可以轻松地处理文件读取、索引构建等任务,提高应用程序的数据搜索效率和用户体验。 Lucene 实现了全文检索功能。
  • Spring MVC与Lucene集成
    优质
    本项目介绍如何使用Spring MVC框架结合开源搜索引擎Lucene实现网站的全文检索功能。通过实际案例讲解配置和应用方法,帮助开发者快速掌握高效的数据搜索技术。 使用Jsoup抓取网页,并用Lucene进行检索。配置文件是从其他项目复制过来的。压缩包里包含war文件和src代码。环境要求:jdk1.8, tomcat 8。
  • Lucene框架与SolrElasticSearch搜引擎(Java高级能必学)
    优质
    本课程深入讲解Lucene全文检索技术原理及其应用,并详细介绍基于Lucene构建的开源搜索引擎Solr和ElasticSearch的核心特性与使用技巧,是提升Java开发者搜索功能开发能力的理想选择。 课程提供所有代码笔记素材以及答疑: 1. 熟练掌握Lucene框架的使用,实现类似百度、京东商城等应用的全文检索效果。 2. Solr简介 3. Solr下载安装及目录结构介绍 4. 将Solr部署至Tomcat服务器 5. Solr后台管理界面介绍 6. 通过managed-schema配置Field以及中文分词器 7. 数据库数据导入Solr索引库操作 8. 使用Solr后台管理界面进行CRUD高亮过滤排序分页等操作 9. 通过Solrj实现索引的添加更新功能 10. Solrj实现删除索引的功能 11. 实战项目应用 12. 总结Solr相关知识点 此外,课程还包含以下内容: - 熟练掌握Lucene框架使用以达成类似百度、京东商城等平台的全文检索效果; - Elasticsearch下载及安装(适用于Windows和Linux系统) - 构建集群环境 - Kibana客户端安装与操作 - 安装并使用head插件进行集群管理 - 使用Java API操作Elasticsearch - 电商项目实战应用等
  • 基于IK Analyzer的中Java实现(含包)
    优质
    本项目提供了一个基于IK Analyzer的高效中文分词器Java实现,内含所有必需的工具包,方便开发者直接集成与应用。 1. lucene-core-3.6.0.jar 2. IKAnalyzer2012.jar(主jar包) 3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. IkSegmentation.java(样例类)
  • Lucene (Word、PPT、Excel、PDF)
    优质
    本项目基于Lucene实现高效文档检索功能,支持Word、PPT、Excel和PDF等多种格式文件。用户可快速定位所需内容,极大提升办公效率。 基于Lucene实现Word、PPT、Excel、PDF、txt的全文检索功能。
  • Windows版(8.11)ElasticSearch配套elasticsearch-head、kibana、IK
    优质
    本资源提供Windows环境下安装配置Elasticsearch 8.11及其相关辅助工具(包括elasticsearch-head插件、Kibana界面和IK中文分词插件)的完整指南,适用于搜索与数据分析需求。 Windows版本的ElasticSearch、elasticsearch-head、kibana以及IK分词插件的安装与配置指南。
  • ikanalyzer中兼容Lucene 7.1.0
    优质
    Ikanalyzer是一款兼容Lucene 7.1.0的高效中文分词插件,旨在为用户提供精准、快速的中文文本分析服务,广泛应用于搜索引擎和信息检索系统。 由于林良益先生在2012年之后未对IKAnalyzer进行更新,导致其不兼容后续Lucene分词接口的变化。因此,该jar包仅支持Lucene 6.0及以上版本。