
Boilerpipe Failed Fork: 样板管 2.0版本
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
Boilerpipe Failed Fork: 样板管 2.0版本 是一个基于Boilerpipe项目但独立发展的新分支,旨在改进和优化原有的文档抽取功能,适用于更广泛的文本挖掘需求。
我将支持使用 JSoup 替代 xerces 等库,并且还能够提取 HTML 而不仅仅是文本内容。此外,项目已经从 Ant 迁移到 Maven。
除了让其正常运行并设置 maven 之外,我没有做太多工作。接下来需要做的事情包括:
1. 构建大量测试(例如500-1000个),以验证输出是否正确。
2. 尽快执行这些测试,以便我可以轻松地发现任何回归问题。
另外,我计划转向使用多个模块结构:一个用于 nekohtmlxerces,另一个用于 jsoup。还需要通知 Chrome 团队关于 boilerpipe 2.0 的相关信息。
全部评论 (0)
还没有任何评论哟~


