
PDF中的文字信息已提取并导出至Excel表格,同时提供相应的源代码。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
该工具采用Python编写,并提供包含源代码以及编译完成后的可执行文件的软件包。它能够根据用户设定的配置,从PDF文档中提取特定的关键词,并将这些关键词写入Excel表格。该工具尤其适用于批量处理固定格式的PDF模板,将其转换为Excel和.Docx文档。转换过程首先将.Docx文档转换为PDF格式,然后利用PDF2Excel工具进行转换。项目目录结构如下:PDF2Excel/dist目录下存放着打包好的所有相关依赖文件,而PDF2Excel/则包含Python源码。此外,还提供了一个名为config.ini的配置文件,用于设置要提取的关键词以及相关的位置信息。配置文件说明:[keyword-n]标识要提取的第n个关键词的相关信息;name=姓名表示具体的关键字;shift=3表明提取目标内容相对于关键字的偏移量,这个偏移量可以是负值,用于指示目标内容位于关键字的左侧,偏移的具体字符数需要根据实际情况预估并进行测试微调;length=3则指定提取目标字符的长度。命令行界面会显示“存放文档的文件夹名称”,这指的是源PDF文档的位置,用户可以根据自己的文件夹命名来输入。
全部评论 (0)
还没有任何评论哟~


