本工具利用Delphi开发,支持从多种文档格式(如DOCX、DOC、XLS、XLSX、PPT、PDF、EML和HTML)中高效提取纯文本信息,满足各类数据处理需求。
支持的文件类型包括:
- PDF 文件(A)
- Office Word 文档:.doc, .odt, .docx, .dotm, .docm (B)
- WPS 文档:.wps (C)
- Office Excel 文件:.xls, .xlsx, .xlsm, .xltm (D)
- WPS 表格:.et (E)
- Office PowerPoint 文件:.ppt, .pptx, .potm, .pptm, .ppsm (F)
- WPS 演示文件:.dps (G)
- 开放文档格式(常见于电子发票版式文件):“*.ofd” (H)
- 富文本类型:.rtf (I)
- HTML 页面文件: .html, .htm, .mht, .mhtml(J)
- 邮件格式文件:.eml, 默认提取前5个附件(K)
- 思维导图格式:*.emmx,xmind,gmind(L)
- UTF8 编码、Unicode 编码和 ANSI 编码的文本段落件 (M)
- 帮助文件:“*.chm”,此格式仅限Windows平台 (N)
- 压缩文件:.zip,默认提取前5个文件(O)