导读
对图像场景的准确理解和建模是人们一直以来的诉求,这是因为精确的场景模型是后续高层的智能安防及自动驾驶任务的基础。目前对于场景的像素级理解主要包括了实例分割和语义分割,而新提出的全景分割(Panoptic Segmentation)则对这两个任务进行了统一,推动了对场景的全面理解。此次分享的文章主要关于全景分割任务介绍及其进展。
1. Introduction
1.1 Background
场景理解在计算机视觉中是一个基础但充满挑战的任务,其在诸如自动驾驶及机器人等任务上有重要的应用。传统的场景理解(Scene Understanding)的任务主要解决了物体是什么、在哪里(目标检测, Object Detection),物体更加精细的轮廓是怎样的(实例分割, Instance Segmentation),整个场景中环境信息是怎样的(语义分割, Semantic Segmentation)。自然而然地,怎样对整个场景进行统一的感知(全景分割, Panoptic Segmentation)成为人们所关心的问题。最近,全面的场景理解也被诸如MicroSoft Research, FaceBook AI Research等研究机构所重视。
1.2 Problem Formulation
全景分割任务最先由FAIR的Alexander及Kaiming等人在今年年初时提出[1],其定义如下图所示:
对于给定的输入图像(a),传统的语义分割(b)给每个像素分配一个语义标签(如图(b)中的人,车,树,天空等等),而传统的实例分割©不考虑背景信息,给每个前景的每个像素分配一个实例的ID(如图©中每一个车和人都分配单独的ID)。相对于前两个任务,全景分割©同时考虑了背景的语义信息和前景的实例信息,或者说全景分割任务对图像中每一个像素分配一个语义的标签和一个实例的ID。用原文的话说“The definition of ‘panoptic’ is “including everything visible in one view”。全景分割任务不是语义分割和实例分割的简单叠加,这在其的评测标准中会有所体现。
1.3 Evaluation Metric
全景分割主要使用PanopticQuality (PQ)进行评测,其中PQ主要有衡量了分割质量SegmentationQuality (SQ)和识别质量Recognition Quality (RQ)两个方面,其评测公式如下:
其中,这里的IoU(p,g)是预测的分割p和GroundTruth g的交并比, TP是指IoU>0.5的分割结果,FP (False Positives),和FN (False Negatives)如下图所示:
从评判公式中可以看出,全景分割中引入了统一的识别的指标RQ,而传统语义分割评测指标mIoU并未显式地考虑这个问题。因此全景分割任务相对于语义更加接近于对场景全局理解。
2. Related Works
由于全景分割是最新提出的任务,相关的方法并不多,主要有以下工作:
2.1 Panoptic Segmentation Benchmark
在提出全景分割任务的文章中[1],作者给出了全景分割的benchmark,即结合最好的实例分割 (如Mask R-CNN [2]) 和语义分割 (如PSPNet [3]) 模型,通过后处理的方式来生成全景分割的结果。由于使用了两个最好的模型,所生成的全景分割结果也不错。作者在这里将目前最好的算法所生成的结果与人工标注的指标进行对比,如下表所示:
可以看出当前最好的实例分割和语义分割网络与人类在分割质量SQ方面相差不大,但在识别质量RQ上有很大的差距,这也为后续的工作指明了方向。
2.2 Weakly-and Semi-Supervised Panoptic Segmentation
这篇文章[4]是ECCV2018上发表的文章,可以看做是对作者之前工作[5]的一个拓展,即基于语义分割的结果来解决实例分割的问题,如下图所示:
而本文[4]将这种结构进行扩展来解决全景分割的问题,如下图所示:
由于这种Bottom-Up进行实例分割的网络本身就含有了语义信息,因此生成全景的结果是个自然而然的过程。本文使用条件随机场 (Conditional Random Field , CRF)来赋予初始的语义分割结果(基于DeepLab [6])实例标签,其能量函数定义:
这里作者在做CRF时考虑了detection的结果和全局信息,这里就不进行展开,感兴趣的读者可以阅读原文[4]。
2.3 COCO2018 Panoptic Segmentation Challenge
MS-COCO(Common Objects in Context) 是计算机视觉领域最为知名的数据集之一,其每年所举办的比赛也是视觉领域的顶尖竞赛。COCO 2018中新加入了全景分割的比赛,其中train set有110k图片,val set有5k图片,test-dev和test-challenge均有20k图片。在今年的全景分割比赛中,前三名队伍的方案均使用了两个网络来解决实例分割和语义分割问题,并在两个网络上分别提升性能。我们所设计的解决方案如下:
在实际竞赛中,前三名获胜队伍均将语义分割和实例分割的基础网络(FPN-based backbone [7])分为两部分训练,具体方法可参见。
3. Take Home Message
全景分割作为一个新的任务,刚提出就受到了广泛的关注。当前解决全景分割的方法仍集中在基于原有的语义分割和实例分割模型,因此怎样在一个网络中使用End-to-End的框架同时生成并优化前景和背景是全景分割中亟需解决的问题;其次,怎样使用网络来推断场景中物体的相对位置(如多个人和车之间的先后覆盖关系)或者说怎样生成non-overlapping的分割结果[5,8,9,10]也是重要的发展方向。
Reference
[1]A. Kirillov, K. He, R. Girshick, C. Rother, and P. Doll´ar. Panopticsegmentation. arXiv:1801.00868, 2018.
[2]K. He, G. Gkioxari, P. Doll´ar, and R. Girshick. Mask r-cnn. In ICCV, 2017.
[3]H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. Pyramid scene parsing network. In CVPR, 2017.
[4]Q. Li, A. Arnab, and P. H. Torr. Weakly-and semi-supervised panopticsegmentation. In ECCV, 2018.
[5]Arnab, A., Torr, P.H.S.: Pixelwise instance segmentation with a dynamicallyinstantiated
network.In CVPR, 2017.
[6]Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Semanticimage segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015.
[7]T.-Y. Lin, P. Doll´ar, R. B. Girshick, K. He, B. Hariharan, and S. J. Belongie.Feature pyramid networks for object detection. In CVPR, 2017.
[8]M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. InCVPR, 2017.
[9]A. Kirillov, E. Levinkov, B. Andres, B. Savchynskyy, and C. Rother. InstanceCut:from edges to instances with multicut. In CVPR,2017.
[10]S. Liu, J. Jia, S. Fidler, and R. Urtasun. SGN: Sequential grouping networksfor instance segmentation. In CVPR,2017.
版权声明