LJParser是一款功能强大的文本搜索与挖掘开发工具,专为用户提供高效、准确的数据分析解决方案。
LJParser文本搜索与挖掘开发平台具备多种功能:全文精准检索、新词发现、汉语分词标注、词语统计及术语翻译、自动聚类与热点分析、分类过滤、自动摘要生成、关键词提取、文档去重以及正文抽取等十余项技术。该平台结合了自然语言处理,网络搜索和文本挖掘的技术,提供了一系列用于二次开发的基础工具集。LJParser由多个中间件构成,并且这些中间件API可以无缝集成到各种复杂的应用系统中;支持Windows,Linux, Android, Maemo5, FreeBSD等操作系统及Java、C、C#等多种编程语言。
该软件主要针对原始文本集合进行处理和加工,同时提供可视化的展示效果。用户可以通过此工具来处理自己的数据集。
LJParser的十大功能包括:
1. 全文精准搜索:支持各种类型的数据(如文本、数字等)以及多字段高效查询;具备AND/OR/NOT及NEAR邻近语法;可检索维吾尔语,藏语等多种少数民族语言。
2. 新词发现:从文件集合中挖掘新词语列表,并能进一步编辑和标注以提高分词系统的准确度;
3. 分词与标注:对原始文本进行自动切分、识别未登录词汇(如人名地名等)并做词性标记;用户可以导入自定义的字典。
4. 统计分析及术语翻译:系统会根据数据提供一元和二元词语转移概率统计,并为常用术语提供英文解释;
5. 文本聚类与热点发现:自动从大规模文本中识别出热点事件及其关键特征描述;适用于长篇文档和微博等短文本的热点分析。
6. 分类过滤:通过预设规则,系统能筛选符合需求的大规模文件集合或数据库记录;
7. 自动摘要生成:能够提炼单篇文章或多篇文章的核心内容供快速浏览使用;
8. 关键词提取:从文章中抽取代表中心思想的关键词汇以便于精简阅读、语义查询和匹配等操作。
9. 文档去重:能准确判断文件集合或数据库记录是否存在重复,并找出所有重复项;
10. HTML正文提取:自动移除导航性质的网页,去除HTML标签及广告文字以返回有价值的信息;适用于大规模网络信息预处理与分析。
LJParser包含一个可执行程序(试用版),演示文本语料库以及各种组件调用接口。正式版本支持更大规模的数据处理和UTF-8编码格式。