Advertisement

Tesseract-OCR的中文识别及字库训练

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本文介绍了Tesseract-OCR在处理中文文本时的应用,并详细讲解了如何针对特定需求进行中文字库的定制与优化。 使用Tesseract-OCR识别中文,并通过jTessBoxEditor训练字库以提高准确度。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • Tesseract-OCR
    优质
    本文介绍了Tesseract-OCR在处理中文文本时的应用,并详细讲解了如何针对特定需求进行中文字库的定制与优化。 使用Tesseract-OCR识别中文,并通过jTessBoxEditor训练字库以提高准确度。
  • Tesseract-OCR
    优质
    Tesseract-OCR的中文训练库旨在增强开源OCR引擎Tesseract识别中文字体的能力,适用于各种文档和图像中的汉字识别任务。 将tesseractocr的中文训练库解压到Tesseract-OCR\tessdata目录中。
  • Tesseract-OCR eng.traineddata OCR数据
    优质
    Tesseract-OCR eng.traineddata 是一个专为英语设计的OCR(光学字符识别)引擎训练数据文件,用于提高英文文档图像到文本转换的准确性。 新版Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件可以自行训练。 1. 准备样本图片。 2. 打开 jTessBoxEditor ,选择 Tools -> Merge TIFF,打开对话框,选择包含所有要参与训练的样本图片所在的文件夹,并选中这些图片。 3. 弹出保存对话框,在当前路径下保存文件,命名为ty.cp.exp6.tif。 4. 在终端执行命令:tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ,点击 Box Editor -> Open ,打开步骤2中生成的ty.cp.exp6.tif文件,会自动关联到 “ty.cp.exp6.box” 文件。 6. 使用echo命令创建字体特征文件:echo cp 0 0 0 0 0 > font_properties。输入内容为“cp 0 0 0 0 0” 7. 在终端中执行以下命令生成 ty.cp.exp6.tr 训练文件: tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 执行以下命令以生成字符集文件:unicharset_extractor ty.cp.exp6.box。接着,使用 mftraining 和 cntraining 生成所需数据。 mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr cntraining ty.cp.exp6.tr 9. 在Clustering过程中生成的4个文件(inttemp、pffmtable、normproto、shapetable)需要手工修改为[lang].xxx。这里,将它们分别改为ty.inttemp、ty.pffmtable、ty.normproto和ty.shapetable。 10. 执行以下命令以合并数据文件: combine_tessdata ty.tesseract
  • Tesseract OCR(含合并)
    优质
    本教程详细介绍使用Tesseract进行OCR字库训练的方法,并包含如何合并不同来源字库以提升识别准确率的内容。适合需要自定义语言支持或优化特定文本类型的用户学习参考。 Tesseract-OCR字库训练包括三个步骤:1、安装jTessBoxEditor;2、进行字库训练;3、合并字库。
  • Tesseract OCR W64
    优质
    Tesseract OCR W64是一款强大的文字识别软件,能够高效地将图像中的文本转换为可编辑和搜索的格式,适用于多种语言。 tesseract-ocr-w64-setup-v5.0.1.20220118.exe
  • Tesseract-OCR用于图片
    优质
    简介:本文介绍了如何使用Tesseract-OCR工具进行中文文字图片的识别,包括安装配置、语言包下载及代码示例。 绕过pytesser直接使用Tesseract-OCR进行中文文字识别的效果较差,后续会上传优化版本。
  • Tesseract-OCR简体资料
    优质
    Tesseract-OCR的简体中文训练资料提供用于优化开源OCR引擎Tesseract在识别简体中文文字方面的性能的数据集和配置文件。 tesseract-ocr的简体中文语言训练数据来自Google官网,可用于识别图片中的中文验证码。对于标准字体而言,其识别效果还是相当不错的。
  • Tesseract-OCR语言包
    优质
    Tesseract-OCR的中文识别语言包是一款用于增强开源OCR引擎Tesseract对简体和繁体中文文本识别能力的语言支持文件。 tesseract-ocr的语言库识别文件下载解压后应放置在tesseract-ocr安装目录下的tessdata 文件夹内。该文件夹存放的是语言字库文件以及命令行界面可能用到的参数对应的文件。默认情况下,这个安装程序包含英文字库。
  • Tesseract-OCR语言包
    优质
    Tesseract-OCR的中文识别语言包是一款用于增强Tesseract OCR引擎对简体和繁体中文文字识别能力的插件。 Tesseract-OCR 是一个识别效果较好的开源中文 OCR 工具,分享给大家可以让有同样兴趣的人少走弯路。