本研究提出一种基于Mask-RCNN算法的实时网络摄像头实例分割方法,实现对视频流中目标物体精确边界和像素级分类。
使用网络摄像头的Mask_RCNN需要Python>=3.4、numpy、scipy、Pillow、cython、matplotlib、scikit-image、tensorflow>=1.3.0、keras>=2.0.8、opencv-python、h5py、imgaug和IPython[all],以及pycocotools。模型是基于训练过的MS COCO数据集,并使用了预先训练的权重(例如,可以利用网络摄像头对对象进行分割)。
这是一个用Mask-RCNN进行物体实例分割的例子,在印度繁忙道路上测试过该模型的一个视频展示了其性能表现。
可能改进之处在于:当前实现是在配备4GB内存的Nvidia 840M上完成的,因此帧速率非常低。为了获得更高的帧率,可以考虑使用更强大的显卡如Nvidia Titan X或Nvidia 1080Ti。采用这些高性能GPU后,我们可以显著提高场景中的帧处理速度。