
S2ORC-Doc2Json:科学论文转换工具(PDF2JSON与TEX2JSON)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
S2ORC-Doc2Json是一款专为科研人员设计的高效工具,能够将复杂格式的科学论文从PDF或LaTeX源代码快速准确地转换成便于处理和分析的JSON格式。
该项目涉及将科学论文转换为S2ORC JSON格式。对于S2ORC,我们使用Grobid工具将自定义的TEI.XML文件解析成JSON格式,从而实现PDF到JSON的转换。此外,我们也处理来自arXiv的LaTeX转储,并提供了一个用于这种转化的tex2json解析器。
在S2ORC GitHub页面上有一个JSON模式可供参考,但基于doc2json/s2orc.py中的Python类来理解该模式会更加容易。此自定义JSON模式同样适用于该项目,因此与CORD-19项目有过接触的人可能会觉得这一格式很熟悉。
需要注意的是,在S2ORC和CORD-19中我们还会执行一些额外的操作:将书目条目链接到其他论文,并解析JATS XML文件(如PubMed Central使用的那种格式)。未来可能也会提供这些组件,但目前尚未包含。
全部评论 (0)
还没有任何评论哟~


