
【Python源码】PDFMiner:提取PDF文档信息的工具
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
PDFMiner是一款用于解析和提取PDF文档内容及结构的Python库。它支持高效地获取文本、图片等信息,适用于数据挖掘、全文检索等多种场景。
PDFMiner 是一个用于从 PDF 文档中抽取信息的工具。
【功能】
- 支持 Python 3.6 或更高版本。
- 兼容 PDF-1.7 标准。
- 提取文本的确切位置以及其他布局信息(如字体)。
- 执行自动布局分析,可以将 PDF 转换为 HTML 和 XML 等格式。
- 可以提取目录和标记内容。
- 支持基本加密(包括 RC4 和 AES)以及多种字体类型(Type1、TrueType、Type3 和 CID)。
- 兼容 CJK 语言及垂直书写脚本。
- 提供可扩展的 PDF 解析器,适用于其他目的。
【使用方法】
安装方式:
```
pip install pdfminer
```
提取文本命令行示例:
```
pdf2txt.py samples/simple1.pdf
```
全部评论 (0)
还没有任何评论哟~


