
基于Keras实现场景文本检测网络CPTN的项目源码分析
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本项目深入剖析了利用Keras框架实现场景文本检测网络CPTN的代码细节,旨在帮助研究者和开发者理解该模型的工作原理及其在实际应用中的优化策略。
在使用Keras复现场景文本检测网络CPTN项目源码的过程中,在ICDAR2015数据集的1000张图像上进行训练,并在另外500张测试集中得到了以下结果:召回率(Recall)为37.07%,精确度(Precision)为42.94%,F值(Hmean)为39.79%。而原论文中报告的F值是61%。
关键点如下:
- 使用ResNet50作为骨干网络。
- 训练时输入图像尺寸设定为720*720,即长边缩放至720像素,并保持宽高比不变,短边通过填充(padding)来调整。而原论文中提到的训练图像尺寸是600像素较短的一边。
- 测试阶段使用1024×1024大小的输入图像进行预测。
- 批次大小设置为4,每张图生成并用于训练的锚点(anchor)数量为128个,正负样本的比例设定为1:1。
- 分类、边界框回归以及侧边细化任务之间的损失函数权重比设为1:1:1。而在原论文中这项比例是设置成1:1:2。
- 侧边细化和边界框回归共用相同的锚点选择策略,即它们采用的是同一套正样本锚点集进行训练;而根据原文描述,这两部分原本应该是独立选择各自的正样本的。
- 尽管有观点质疑侧边细化的有效性,但从实验结果来看该模块确实发挥了作用。
全部评论 (0)
还没有任何评论哟~


