Advertisement

中文OCR训练及测试:CRNN(CNN+RNN+CTCLoss)

  • 5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本项目专注于使用CRNN模型进行中文字符识别技术的研究与实践,结合CNN、RNN和CTC损失函数优化文字序列识别精度。 训练步骤: 1. 处理train 数据集:运行命令 `python3 ./utils/make_data.py` 2. 训练网络:运行命令 `python3 train.py` 测试步骤: 1. 加载模型,将训练好的模型放入`./model/`目录中。 2. 向`test_img_list`添加需要测试的图片列表。例如: `test_img_list = [/home/tony/ocr/test_data/00023.jpg]` 3. 运行测试命令:运行命令 `python3 test_crnn.py`

全部评论 (0)

还没有任何评论哟~
客服
客服
  • OCRCRNNCNN+RNN+CTCLoss
    优质
    本项目专注于使用CRNN模型进行中文字符识别技术的研究与实践,结合CNN、RNN和CTC损失函数优化文字序列识别精度。 训练步骤: 1. 处理train 数据集:运行命令 `python3 ./utils/make_data.py` 2. 训练网络:运行命令 `python3 train.py` 测试步骤: 1. 加载模型,将训练好的模型放入`./model/`目录中。 2. 向`test_img_list`添加需要测试的图片列表。例如: `test_img_list = [/home/tony/ocr/test_data/00023.jpg]` 3. 运行测试命令:运行命令 `python3 test_crnn.py`
  • Tesseract-OCR
    优质
    Tesseract-OCR的中文训练库旨在增强开源OCR引擎Tesseract识别中文字体的能力,适用于各种文档和图像中的汉字识别任务。 将tesseractocr的中文训练库解压到Tesseract-OCR\tessdata目录中。
  • Tesseract-OCR识别字库
    优质
    本文介绍了Tesseract-OCR在处理中文文本时的应用,并详细讲解了如何针对特定需求进行中文字库的定制与优化。 使用Tesseract-OCR识别中文,并通过jTessBoxEditor训练字库以提高准确度。
  • CRNN模型(crnn.pth)
    优质
    CRNN预训练模型(crnn.pth)是一款基于卷积循环神经网络架构的深度学习模型,专为序列数据识别任务设计,适用于场景文本检测与识别等领域。 CRNN预训练模型是一种用于序列识别任务的深度学习模型,在处理如文本检测与识别等问题上表现出色。这种模型结合了卷积神经网络(CNN)进行特征提取、循环神经网络(RNN)捕捉时间依赖性以及全连接层实现分类,特别适用于图像中的文字识别场景。
  • 版CHM.chm
    优质
    Wireshark 操作指南 中文版本 CHM.chm
  • Tesseract-OCR的简体资料
    优质
    Tesseract-OCR的简体中文训练资料提供用于优化开源OCR引擎Tesseract在识别简体中文文字方面的性能的数据集和配置文件。 tesseract-ocr的简体中文语言训练数据来自Google官网,可用于识别图片中的中文验证码。对于标准字体而言,其识别效果还是相当不错的。
  • Tesseract-OCR eng.traineddata OCR识别数据
    优质
    Tesseract-OCR eng.traineddata 是一个专为英语设计的OCR(光学字符识别)引擎训练数据文件,用于提高英文文档图像到文本转换的准确性。 新版Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件可以自行训练。 1. 准备样本图片。 2. 打开 jTessBoxEditor ,选择 Tools -> Merge TIFF,打开对话框,选择包含所有要参与训练的样本图片所在的文件夹,并选中这些图片。 3. 弹出保存对话框,在当前路径下保存文件,命名为ty.cp.exp6.tif。 4. 在终端执行命令:tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ,点击 Box Editor -> Open ,打开步骤2中生成的ty.cp.exp6.tif文件,会自动关联到 “ty.cp.exp6.box” 文件。 6. 使用echo命令创建字体特征文件:echo cp 0 0 0 0 0 > font_properties。输入内容为“cp 0 0 0 0 0” 7. 在终端中执行以下命令生成 ty.cp.exp6.tr 训练文件: tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 执行以下命令以生成字符集文件:unicharset_extractor ty.cp.exp6.box。接着,使用 mftraining 和 cntraining 生成所需数据。 mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr cntraining ty.cp.exp6.tr 9. 在Clustering过程中生成的4个文件(inttemp、pffmtable、normproto、shapetable)需要手工修改为[lang].xxx。这里,将它们分别改为ty.inttemp、ty.pffmtable、ty.normproto和ty.shapetable。 10. 执行以下命令以合并数据文件: combine_tessdata ty.tesseract
  • 基于CNN+GRU+CTC的不定长本识别模型
    优质
    本研究提出了一种结合卷积神经网络(CNN)、门控循环单元(GRU)及连接时序分类(CTC)技术的模型,用于处理不定长中文文本的自动识别任务。通过大量数据训练优化模型参数,实现在各种复杂场景下对中文文本的有效识别与理解。 Keras训练CNN+GRU+CTC不定长中文识别模型的工程代码包括了模型文件。
  • Microsoft Games版).zip
    优质
    Windows 7自带的这款小游戏,阉割版的系统依然值得一试(不支持Windows 10平台),游戏中包含了扫雷、红心大战、空当接龙以及蜘蛛纸牌等多个经典玩法。
  • Halcon OCR指南
    优质
    《Halcon OCR训练指南》是一本详细指导读者如何使用HALCON软件进行光学字符识别(OCR)操作和参数优化的专业手册。 用于训练OCR字符识别的完整代码,请自由使用。如果上传的资源因版权、使用或内容完整性等问题被举报并通过官方审核,将扣除通过该资源获得的所有积分。