Advertisement

基于Keras实现场景文本检测网络CPTN的项目源码分析

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本项目深入剖析了利用Keras框架实现场景文本检测网络CPTN的代码细节,旨在帮助研究者和开发者理解该模型的工作原理及其在实际应用中的优化策略。 在使用Keras复现场景文本检测网络CPTN项目源码的过程中,在ICDAR2015数据集的1000张图像上进行训练,并在另外500张测试集中得到了以下结果:召回率(Recall)为37.07%,精确度(Precision)为42.94%,F值(Hmean)为39.79%。而原论文中报告的F值是61%。 关键点如下: - 使用ResNet50作为骨干网络。 - 训练时输入图像尺寸设定为720*720,即长边缩放至720像素,并保持宽高比不变,短边通过填充(padding)来调整。而原论文中提到的训练图像尺寸是600像素较短的一边。 - 测试阶段使用1024×1024大小的输入图像进行预测。 - 批次大小设置为4,每张图生成并用于训练的锚点(anchor)数量为128个,正负样本的比例设定为1:1。 - 分类、边界框回归以及侧边细化任务之间的损失函数权重比设为1:1:1。而在原论文中这项比例是设置成1:1:2。 - 侧边细化和边界框回归共用相同的锚点选择策略,即它们采用的是同一套正样本锚点集进行训练;而根据原文描述,这两部分原本应该是独立选择各自的正样本的。 - 尽管有观点质疑侧边细化的有效性,但从实验结果来看该模块确实发挥了作用。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • KerasCPTN
    优质
    本项目深入剖析了利用Keras框架实现场景文本检测网络CPTN的代码细节,旨在帮助研究者和开发者理解该模型的工作原理及其在实际应用中的优化策略。 在使用Keras复现场景文本检测网络CPTN项目源码的过程中,在ICDAR2015数据集的1000张图像上进行训练,并在另外500张测试集中得到了以下结果:召回率(Recall)为37.07%,精确度(Precision)为42.94%,F值(Hmean)为39.79%。而原论文中报告的F值是61%。 关键点如下: - 使用ResNet50作为骨干网络。 - 训练时输入图像尺寸设定为720*720,即长边缩放至720像素,并保持宽高比不变,短边通过填充(padding)来调整。而原论文中提到的训练图像尺寸是600像素较短的一边。 - 测试阶段使用1024×1024大小的输入图像进行预测。 - 批次大小设置为4,每张图生成并用于训练的锚点(anchor)数量为128个,正负样本的比例设定为1:1。 - 分类、边界框回归以及侧边细化任务之间的损失函数权重比设为1:1:1。而在原论文中这项比例是设置成1:1:2。 - 侧边细化和边界框回归共用相同的锚点选择策略,即它们采用的是同一套正样本锚点集进行训练;而根据原文描述,这两部分原本应该是独立选择各自的正样本的。 - 尽管有观点质疑侧边细化的有效性,但从实验结果来看该模块确实发挥了作用。
  • Keras-TensorFlow 中 YOLO 算法
    优质
    本项目实现了基于Keras和TensorFlow框架下的YOLO算法,专注于场景文本检测任务。通过优化模型结构与参数,提高了对复杂背景中文字的识别精度及速度。 在 keras-tensorflow 中实现了用于场景文本检测的 YOLO 算法(不使用对象检测 API),可以调整代码以适应不同的对象检测任务。构建高效 OCR 系统的第一步是利用该算法找出特定的文本位置。通过从头开始实现 YOLO (You Only Look Once) 算法,我们可以针对 python 中的场景文本检测进行优化。 数据集使用的是 ICDAR 提供的数据集: - 训练图像:376 张 - 验证图像:115 张 预处理步骤由 Preprocess.py 文件执行。首先将所有图片调整为 (512, 512) 尺寸,并相应地修改边界框的真实坐标。接着,对这些图像进行归一化处理,将其范围设置在 [-1 , 1] 内。同时,地面实况坐标的预处理被转换成一个维度矩阵(网格高度、网格宽度、1、5)的形式。 对于自定义数据的使用,在 Preprocess.py 文件中需要做必要的修改以适应新的输入格式和需求。
  • MATLAB
    优质
    本项目提供了一套基于MATLAB实现的场景文字检测源码,适用于图像中英文、数字等文本信息的自动识别与提取。 检测 MATLAB 源码的场景文字可以参考来自 GitHub 的代码。欢迎下载并仔细查看和分析这些代码,相信你会有所收获。
  • TextCNN战(Keras与数据集.zip
    优质
    本资源包提供了一个使用Keras框架实现的TextCNN模型在文本分类任务中的应用实例,包括完整源代码和相关数据集。 本资源主要基于TextCNN(keras)实现文本分类,适用于初学者学习文本分类使用。数据集为电商真实商品评论数据,主要包括训练集data_train、测试集data_test ,经过预处理的训练集clean_data_train以及中文停用词表stopwords.txt,可用于模型训练和测试。 源代码包括: - word2vec_analysis.py:基于Word2Vec生成词向量,并采用向量平均求得句向量。然后分别构建RandomForest和GBDT分类模型进行文本分类。 - textcnn_model.py:基于Keras构建CNN、TextCNN卷积神经网络模型对文本进行分类。 这些资源可以帮助用户了解如何使用深度学习技术处理自然语言数据,尤其是针对电商评论的情感分析任务。
  • Keras-GCN:Keras图卷积
    优质
    Keras-GCN 是一个利用 Keras 框架构建的图卷积神经网络库。它提供了一种简便的方法来处理和学习图结构数据,适用于复杂网络分析与模式识别任务。 使用Keras对图进行深度学习基于Keras的图卷积网络的半监督分类实现。由Thomas N.Kipf 和 Max Welling 在ICLR 2017 上提出。 有关高级解释,请查看我们的博客文章: Thomas Kipf(2016) 注意,此代码无意于从论文中复制实验,因为初始化方案、退出方案和数据集拆分与TensorFlow中的原始实现不同。 安装方法为python setup.py install。依赖关系包括keras版本1.0.9或更高以及 TensorFlow 或 Theano。 使用说明:运行命令 python train.py 资料集参考(Cora) 引用格式: 如果您在自己的工作中使用以下代码,请参照我们的论文: @inproceedings{kipf2017semi, title={Semi-Supervised Classification with Graph Convolutional Networks}, author={Thomas N. Kipf and Max Welling} }
  • Keras人像割Unet.zip
    优质
    本项目为基于Keras框架实现的人像分割模型,采用UNet架构,适用于人像与背景分离任务。提供代码和预训练权重下载。 使用Keras实现Unet网络,可以对人像进行分割,并从视频或图像中提取人物。已提供一个训练好的模型,下载后根据教程即可开始测试。
  • ICDAR2013数据集
    优质
    ICDAR2013场景文本检测数据集是用于评估图像中自然场景文本定位与识别性能的重要资源,包含多种复杂背景下的高质量标注样本。 ICDAR2013数据集为每张图片提供了单词边界框的标注以及文字内容。每个标注文件中的每一行代表一个文本目标,前四个数字表示坐标信息(x1, y1, x2, y2),即文本框左上角和右下角点的位置,构成矩形的目标框。最后一列是实际的文字字符内容;如果字体模糊,则用###代替。
  • Keras框架LSTM
    优质
    本项目采用Python深度学习库Keras构建长短期记忆(LSTM)神经网络模型,致力于解决序列数据预测问题,为自然语言处理与时间序列分析提供高效解决方案。 基于KERAS实现的LSTM网络包括run.py、model.py以及数据处理模块和参数文件。该网络使用KERAS搭建,易于理解。