中文OCR训练及测试：CRNN（CNN+RNN+CTCLoss）

5星

浏览量: 0

大小:None

文件类型：None

简介：
本项目专注于使用CRNN模型进行中文字符识别技术的研究与实践，结合CNN、RNN和CTC损失函数优化文字序列识别精度。训练步骤： 1. 处理train 数据集：运行命令 `python3 ./utils/make_data.py` 2. 训练网络：运行命令 `python3 train.py` 测试步骤： 1. 加载模型，将训练好的模型放入`./model/`目录中。 2. 向`test_img_list`添加需要测试的图片列表。例如: `test_img_list = [/home/tony/ocr/test_data/00023.jpg]` 3. 运行测试命令：运行命令 `python3 test_crnn.py`

全部评论 (0)

还没有任何评论哟~

客服

中文OCR训练及测试：CRNN（CNN+RNN+CTCLoss）

优质

本项目专注于使用CRNN模型进行中文字符识别技术的研究与实践，结合CNN、RNN和CTC损失函数优化文字序列识别精度。训练步骤： 1. 处理train 数据集：运行命令 `python3 ./utils/make_data.py` 2. 训练网络：运行命令 `python3 train.py` 测试步骤： 1. 加载模型，将训练好的模型放入`./model/`目录中。 2. 向`test_img_list`添加需要测试的图片列表。例如: `test_img_list = [/home/tony/ocr/test_data/00023.jpg]` 3. 运行测试命令：运行命令 `python3 test_crnn.py`

Tesseract-OCR的中文训练库

优质

Tesseract-OCR的中文训练库旨在增强开源OCR引擎Tesseract识别中文字体的能力，适用于各种文档和图像中的汉字识别任务。将tesseractocr的中文训练库解压到Tesseract-OCR\tessdata目录中。

Tesseract-OCR的中文识别及字库训练

优质

本文介绍了Tesseract-OCR在处理中文文本时的应用，并详细讲解了如何针对特定需求进行中文字库的定制与优化。使用Tesseract-OCR识别中文，并通过jTessBoxEditor训练字库以提高准确度。

CRNN预训练模型（crnn.pth）

优质

CRNN预训练模型（crnn.pth）是一款基于卷积循环神经网络架构的深度学习模型，专为序列数据识别任务设计，适用于场景文本检测与识别等领域。 CRNN预训练模型是一种用于序列识别任务的深度学习模型，在处理如文本检测与识别等问题上表现出色。这种模型结合了卷积神经网络（CNN）进行特征提取、循环神经网络（RNN）捕捉时间依赖性以及全连接层实现分类，特别适用于图像中的文字识别场景。

测试和训练中文版CHM.chm

优质

Wireshark 操作指南中文版本 CHM.chm

Tesseract-OCR的简体中文训练资料

优质

Tesseract-OCR的简体中文训练资料提供用于优化开源OCR引擎Tesseract在识别简体中文文字方面的性能的数据集和配置文件。 tesseract-ocr的简体中文语言训练数据来自Google官网，可用于识别图片中的中文验证码。对于标准字体而言，其识别效果还是相当不错的。

Tesseract-OCR eng.traineddata OCR识别训练数据文件

优质

Tesseract-OCR eng.traineddata 是一个专为英语设计的OCR（光学字符识别）引擎训练数据文件，用于提高英文文档图像到文本转换的准确性。新版Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件可以自行训练。 1. 准备样本图片。 2. 打开 jTessBoxEditor ，选择 Tools -> Merge TIFF，打开对话框，选择包含所有要参与训练的样本图片所在的文件夹，并选中这些图片。 3. 弹出保存对话框，在当前路径下保存文件，命名为ty.cp.exp6.tif。 4. 在终端执行命令：tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ，点击 Box Editor -> Open ，打开步骤2中生成的ty.cp.exp6.tif文件，会自动关联到 “ty.cp.exp6.box” 文件。 6. 使用echo命令创建字体特征文件：echo cp 0 0 0 0 0 > font_properties。输入内容为“cp 0 0 0 0 0” 7. 在终端中执行以下命令生成 ty.cp.exp6.tr 训练文件： tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 执行以下命令以生成字符集文件：unicharset_extractor ty.cp.exp6.box。接着，使用 mftraining 和 cntraining 生成所需数据。 mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr cntraining ty.cp.exp6.tr 9. 在Clustering过程中生成的4个文件（inttemp、pffmtable、normproto、shapetable）需要手工修改为[lang].xxx。这里，将它们分别改为ty.inttemp、ty.pffmtable、ty.normproto和ty.shapetable。 10. 执行以下命令以合并数据文件： combine_tessdata ty.tesseract

基于CNN+GRU+CTC的不定长中文文本识别模型训练与测试

优质

本研究提出了一种结合卷积神经网络（CNN）、门控循环单元（GRU）及连接时序分类（CTC）技术的模型，用于处理不定长中文文本的自动识别任务。通过大量数据训练优化模型参数，实现在各种复杂场景下对中文文本的有效识别与理解。 Keras训练CNN+GRU+CTC不定长中文识别模型的工程代码包括了模型文件。

Microsoft Games测试和训练（中文版）.zip

优质

Windows 7自带的这款小游戏，阉割版的系统依然值得一试（不支持Windows 10平台），游戏中包含了扫雷、红心大战、空当接龙以及蜘蛛纸牌等多个经典玩法。

Halcon OCR训练指南

优质

《Halcon OCR训练指南》是一本详细指导读者如何使用HALCON软件进行光学字符识别（OCR）操作和参数优化的专业手册。用于训练OCR字符识别的完整代码，请自由使用。如果上传的资源因版权、使用或内容完整性等问题被举报并通过官方审核，将扣除通过该资源获得的所有积分。

是否确定退出登录?

中文OCR训练及测试：CRNN（CNN+RNN+CTCLoss）

全部评论 (0)