Tesseract-OCR eng.traineddata 是一个专为英语设计的OCR(光学字符识别)引擎训练数据文件,用于提高英文文档图像到文本转换的准确性。
新版Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件可以自行训练。
1. 准备样本图片。
2. 打开 jTessBoxEditor ,选择 Tools -> Merge TIFF,打开对话框,选择包含所有要参与训练的样本图片所在的文件夹,并选中这些图片。
3. 弹出保存对话框,在当前路径下保存文件,命名为ty.cp.exp6.tif。
4. 在终端执行命令:tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox
5. 打开 jTessBoxEditor ,点击 Box Editor -> Open ,打开步骤2中生成的ty.cp.exp6.tif文件,会自动关联到 “ty.cp.exp6.box” 文件。
6. 使用echo命令创建字体特征文件:echo cp 0 0 0 0 0 > font_properties。输入内容为“cp 0 0 0 0 0”
7. 在终端中执行以下命令生成 ty.cp.exp6.tr 训练文件:
tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train
8. 执行以下命令以生成字符集文件:unicharset_extractor ty.cp.exp6.box。接着,使用 mftraining 和 cntraining 生成所需数据。
mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr
cntraining ty.cp.exp6.tr
9. 在Clustering过程中生成的4个文件(inttemp、pffmtable、normproto、shapetable)需要手工修改为[lang].xxx。这里,将它们分别改为ty.inttemp、ty.pffmtable、ty.normproto和ty.shapetable。
10. 执行以下命令以合并数据文件:
combine_tessdata ty.tesseract