RAFT-Stereo-Realtime ONNX Model是一种基于ONNX框架实现的实时立体视觉模型,适用于深度学习中的实时应用场景。
RAFT-Stereo的实时权重由官方提供的pth模型转换而来,并经过验证确认可用。
RAFT-Stereo的优势在于早期双目深度估计研究主要集中在特征匹配与正则化两个关键部分,主流方法是使用3D卷积神经网络计算代价体,但这种方法成本较高且难以处理高分辨率图像。相比之下,光流问题通常采用迭代精化的方法来解决。尽管光流和矫正立体镜头在技术上紧密相关,但用于这两个任务的神经网络结构却有很大差异。
RAFT-Stereo是一种新型的双视立体架构体系,它利用了RAFT特有的3D体积与迭代细化法,并仅使用2D卷积以及一个轻量级的成本体。相比之前的立体网络模型,RAFT-Stereo具有更好的泛化能力且不需要复杂的损失项,在KITTI、ETH3D和Middlebury等真实数据集上表现出色并具备更强的跨数据集泛化性能。
该模型基于RAFT光流估计网络改进而来,通过多级卷积GRU模块传播全局信息。其结构包括特征提取、相关性匹配代价体构建及多层级更新策略,在不同尺度优化视差估计的同时增强了对弱纹理区域的适应性。实验结果表明,此方法在立体匹配任务中取得了良好的效果。