基于深度学习的通用物体检测算法对比探索 / 基于深度学习的目标检测算法剖析与实现

尚尚小助手

1. 讲者介绍

张士峰：中科院自动化所2015级直博，导师李子青研究员，研究方向为基于深度学习的物体检测，主要包括通用物体检测、人脸检测、行人检测。目前已发表论文12篇，其中第一作者论文9篇，包括IJCV、CVPR、ICCV、ECCV、IJCAI、AAAI等。再投论文9篇，再审专利3项，获CCF-CV学术新锐奖、国家奖学金、唐立新奖学金、必和必拓奖学金、攀登一等奖学金、三好学生、国际人脸检测竞赛季军、最佳学生论文等荣誉。

报告题目：基于深度学习的通用物体检测算法对比探索

报告摘要：目前基于深度学习的通用物体检测算法大致可以分为两类：一步法检测器和二步法检测器。一步法检测器有较高的检测速度，但检测精度不如二步法检测器。而二步法检测有较高的检测精度，但检测效率不如一步法检测器。为了使得一步法检测器获得二步法检测器的检测精度，同时保持较高的检测效率，我们对一步法和二步法检测器进行了一系列探索，提出了RefineDet、SRN、AlignDet等系列算法。此次分享会将概括地介绍通用物体检测算法，以及我们自己一系列相关的工作。

Spotlight：

通用物体检测算法对比探索；
一步法检测器的一系列改进工作。

2. 讲者介绍

尤安升：北京大学智能科学系研二，本科就读于北京大学信科计算机系，有过多年计算机视觉开发经验，精通图像分类、图像分割、关键点定位以及目标检测，开源项目PyTorchCV作者。

报告题目：基于深度学习的目标检测算法剖析与实现

报告摘要：目标检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。因此，目标检测也就成为了近年来理论和应用的研究热点，它是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分，同时目标检测也是泛身份识别领域的一个基础性的算法，对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。由于深度学习的广泛运用，目标检测算法得到了较为快速的发展，此次分享会主要介绍基于深度学习的两种目标检测算法思路与实现细节，分别为One-Stage目标检测算法和Two-Stage目标检测算法。

Spotlight：

目标检测算法原理剖析；
目标检测算法实现细节讲解。

论文推荐

1. Deformable ConvNets v2- More Deformable, Better Results

推荐理由：微软亚研代季峰老师组的文章，可形变卷积网络的加强版。可变形卷积网络的特征支持空间比常规的卷积网络更符合目标结构，但这种支持远远超出感兴趣的区域，导致特征受到不相关图像内容的影响。为了解决这个问题，DCNv2对网络中可变形卷积进行更全面的集成，引入一种扩展变形建模范围的调制机制，增强了建模能力。为了有效地利用这种丰富的建模能力，其通过提出的特征模拟方案指导网络训练，该方案帮助网络学习特征，这些特征反应目标焦点和R-CNN网络分类能力的特征。

推荐理由来自：张士峰

2. AutoFocus- Efficient Multi-Scale Inference

推荐理由：Larry S. Davis老师组继SNIP和SNIPER后又一力作，保持检测精度基本不掉的情况下，提高检测速度。该文章提出了一种高效的多尺度目标检测算法用于高效检测物体。这种算法使用了由粗到精的策略，只在那些可能有小物体存在的区域使用细粒度的检测。为了得到这些区域，其提出了一种称为FocusPixels的方法来预测小区域。同时为了配合FocusPixels高效的使用，设计了FocusChip来涵盖FocusPixels区域，以减少计算量。

推荐理由来自：张士峰

3. CornerNet- Detecting Objects as Paired Keypoints

推荐理由：该文章巧妙地利用关键点来表示物体方形包围框，即一个目标框可以由两个点（左上角和右下角）来表示，这样一个目标物体在预测的时候就可以直接预测两个类别的关键点，然后对两个类别的关键点进行组合即可生成对应的目标框，是One-Stage检测算法中一个较为有意思的尝试。

推荐理由来自：尤安升

4. SSD- Single Shot MultiBox Detector

推荐理由：One-Stage算法中的经典算法，在既保证速度，又要保证精度的情况下，提出了一种在多尺度特征图上直接回归目标类别和位置的One-Stage检测框架。相比较于其他单阶段检测模型（YOLO），SSD通过设置Anchor Boxes和使用多尺度特征图，使得在取得了较高的精度的同时能保持较高的速度；相对于那些需要 object proposals 的两阶段检测模型（Faster R-CNN），SSD 完全取消了 proposals generation、pixel resampling或者 feature resampling这些阶段，更易于训练优化。后续One-Stage相关改进工作多基于该算法进行。

推荐理由来自：尤安升

推荐理由：SSD是一步法检测器的集大成者，达到跟接近二步法模型精度的同时，拥有比两阶段模型快一个数量级的速度。后续的单阶段模型工作大多基于SSD改进展开。SSD相当于多尺度的RPN来做物体检测，它利用多个尺度的检测层，分别关联大小合适的anchor box，使得不同尺度的物体在合适的特征层上被检测。同时不依靠逐区域操作的子网络，一次分类和回归得到最终的结果，取得了不错的检测精度以及较快的检测速度。

推荐理由来自：张士峰

5. Faster R-CNN- Towards Real-Time Object Detection with Region Proposal Networks

推荐理由：Faster R-CNN是二步法检测器的奠基性工作，提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。Faster R-CNN = RPN + Fast R-CNN，跟RCNN共享卷积计算的特性使得RPN引入的计算量很小，使得Faster R-CNN可以在单个GPU上以5fps的速度运行，在当时到达了SOTA的精度。Faster R-CNN的成功之处在于用RPN网络完成了检测任务的深度化。使用滑动窗口生成anchor box的思想也在后来的工作中越来越多地被采用。这项工作奠定了"RPN+RCNN"的两阶段方法元结构，影响了大部分后续工作。

推荐理由来自：张士峰

推荐理由：Two-Stage算法中的经典算法，通过区域候选网络代替传统方法生成region proposals，极大地提高了Two-Stage检测算法的速度，至此Two-Stage检测算法基本确定，后续相关工作多基于该算法进行改进，如FPN、R-FCN等目标检测算法。

推荐理由来自：尤安升

6. Single-Shot Refinement Neural Network for Object Detection

推荐理由：一步法检测器的网络结构，位置框和物体的类是在同一个特征提取层来做回归和分类预测的，这种的网络运算速度虽然快但是准确度不够高。RefineDet是基于SSD的改进算法，该算法主要是利用特征金字塔的上半部分来回归粗略位置参数来调整anchor的位置以及框的二分类（是否是物体的位置）任务，用下半部分相对于调整的anchor的参数来回归精细物体位置和框内物体的分类任务，从而保持一步法检测器的速度下，达到二步法的检测精度。

推荐理由来自：张士峰

7. Selective Refinement Network for High Performance Face Detection

推荐理由：人脸检测中存在着召回效率不够高，回归结果不够准的问题。为了解决这个问题，SRN选择性地在特征金字塔浅层使用二阶段分类，在特征金字塔深层使用二阶段回归，有效地提高了回归结果的准度以及召回效率。同时，为了引入多样化的感受野信息，有助于SRN检出极端尺度、姿态下的人脸，进一步设计了RFE模块。发表时，SRN在AFW、PASCAL face、FDDB、WIDER FACE上取得了最好的结果。

推荐理由来自：张士峰

8. Cascade R-CNN- Delving into High Quality Object Detection

推荐理由：类似于Faster R-CNN、FPN等，其Proposal网络对于正样本只设置了一个阈值，只做了一次较为宽松的约束，得到的Proposals结果较为粗糙，当对检测框的定位结果要求更为精确的时候就稍显不足。而Cascade R-CNN在获取Proposals的时候也采用逐步求精的策略，前一步生成的Proposals作为后一步的输入，通过控制正样本的交并比阈值不断提高Proposals的质量。

推荐理由来自：尤安升

9. Acquisition of Localization Confidence for Accurate Object Detection

推荐理由：该算法提出了IOU-Guided NMS，通过一个子网络获取每个Proposals的IOU得分，然后以IOU（交并比）得分作为NMS的排序依据，因为IOU得分直接反应了对应框的定位精确程度，优先考虑定位精度较高的框，防止定位精度较低但是其他得分较高的框被误排序到前面。

推荐理由来自：尤安升

回放视频+推荐论文+讲者PPT 登录后获取查看地址

尤安升

基于深度学习的目标检测算法剖析与实现

导言

目标检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。因此，目标检测也就成为了近年来理论和应用的研究热点，它是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分，同时目标检测也是泛身份识别领域的一个基础性的算法，对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。本文主要介绍基于深度学习的两种目标检测算法思路与具体实现细节，分别为One-Stage目标检测算法和Two-Stage目标检测算法。

1. 相关介绍

1.1 什么是相关检测

图1: 任务对比图

目标检测即找出图像中所有感兴趣的物体，包含物体定位和物体分类两个子任务，同时确定物体的类别和位置。

1.2 PyTorchCV

图2: PyTorchCV training过程抽象

训练过程主要包括数据读入、模型构建、模型输出以及计算损失值四个过程。其中PyTorchCV对每一种任务类型都定义了相应的数据格式，每一种方法都对应了一种数据读取类。需要注意的是在计算损失的时候需要将Ground Truth编码成和模型输出对应的格式，然后计算预测和目标的损失值。

图3: PyTorchCV validation过程抽象

验证过程伴随着训练过程，其主要流程和训练过程相似，只是最后计算损失值变成了计算模型效果，即对模型输出进行解码，生成和Ground Truth格式相同的结果计算训练过程中的模型的效果。

图4: PyTorchCV testing过程抽象

测试过程即图片作为输入，经过模型输出解码生成最后结果。其中解码过程即对模型的规则输出进行后处理生成我们需要的格式的结果。

图5: PyTorchCV debug过程抽象

调试过程如图5所示，其中主要测试编码（Encode）和解码（Decode）过程的一致性，Ground Truth通过编码使其与网络输出的格式一样，这样原来用来解码网络输出的部分代码就可以用来解码Ground Truth通过编码之后的结果，如果解码过程能够还原Ground Truth，初步说明编码和解码过程在一定程度上是一致的和正确的。

2. 目标检测算法分析

2.1 算法概述

目标检测任务可分为两个关键的子任务：目标分类和目标定位。目标分类任务负责判断输入图像或所选择图像区域（Proposals）中是否有感兴趣类别的物体出现，输出一系列带分数的标签表明感兴趣类别的物体出现在输入图像或所选择图像区域（Proposals）中的可能性。目标定位任务负责确定输入图像或所选择图像区域（Proposals）中感兴趣类别的物体的位置和范围，输出物体的包围盒、或物体中心、或物体的闭合边界等，通常使用方形包围盒，即Bounding Box用来表示物体的位置信息。

目前主流的目标检测算法主要是基于深度学习模型，大概可以分成两大类别：

（1）One-Stage目标检测算法，这类检测算法不需要Region Proposal阶段，可以通过一个Stage直接产生物体的类别概率和位置坐标值，比较典型的算法有YOLO、SSD和CornerNet；

（2）Two-Stage目标检测算法，这类检测算法将检测问题划分为两个阶段，第一个阶段首先产生候选区域（Region Proposals），包含目标大概的位置信息，然后第二个阶段对候选区域进行分类和位置精修，这类算法的典型代表有R-CNN，Fast R-CNN，Faster R-CNN等。目标检测模型的主要性能指标是检测准确度和速度，其中准确度主要考虑物体的定位以及分类准确度。一般情况下，Two-Stage算法在准确度上有优势，而One-Stage算法在速度上有优势。不过，随着研究的发展，两类算法都在两个方面做改进，均能在准确度以及速度上取得较好的结果。

2.2 One-Stage目标检测算法

One-Stage目标检测算法可以在一个stage直接产生物体的类别概率和位置坐标值，相比于Two-Stage的目标检测算法不需要Region Proposal阶段，整体流程较为简单。如下图所示，在Testing的时候输入图片通过CNN网络产生输出，解码（后处理）生成对应检测框即可；在Training的时候则需要将Ground Truth编码成CNN输出对应的格式以便计算对应损失loss。

图6：One-Stage检测算法示意图

目前对于One-Stage算法的主要创新主要集中在如何设计更高效准确的CNN结构、如何更好地选择Anchors，如何构建网络回归目标以及如何设计损失函数上。

2.3 Two-Stage目标检测算法

Two-Stage目标检测算法本人认为可以看作是进行两次One-Stage检测，第一个Stage初步检测出物体位置，第二个Stage对第一个阶段的结果做进一步的精化，对每一个候选区域进行One-Stage检测。整体流程如下图所示，在Testing的时候输入图片经过卷积神经网络产生第一阶段输出，对输出进行解码处理生成候选区域，然后获取对应候选区域的特征表示（ROIs），然后对ROIs进一步精化产生第二阶段的输出，解码（后处理）生成最终结果，解码生成对应检测框即可；在Training的时候需要将Ground Truth编码成CNN输出对应的格式以便计算对应损失loss。

如上图所示，Two-Stage的两个阶段拆开来看均与One-Stage检测算法相似，所以我觉得Two-Stage可以看成是两个One-Stage检测算法的组合，第一个Stage做初步检测，剔除负样本，生成初步位置信息（Region of Interest），第二个Stage再做进一步精化并生成最终检测结果。目前对于Two-Stage算法的主要创新主要集中在如何高效准确地生成Proposals、如何获取更好的ROI features、如何Align获取到的ROI features、如何加速Two-Stage检测算法以及如何改进后处理方法。

3. 小结

目标检测至今仍然是计算机视觉领域较为活跃的一个研究方向，虽然One-Stage检测算法和Two-Stage检测算法都取得了很好的效果，但是对于真实场景下的应用还存在一定差距，目标检测这一基本任务仍然是非常具有挑战性的课题，存在很大的提升潜力和空间。

欢迎关注 https://github.com/CVBox

参考文献

[1] A. Krizhevsky, I. Sutskever,and G. E. Hinton, “Imagenet classification with deep convolutional neuralnetworks,” in Advances in neural information processing systems, 2012, pp.1097–1105.

[2] Vishwakarma S, Agrawal A. Asurvey on activity recognition and behavior understanding in video surveillance[J]. The Visual Computer, 2012: 1-27.

[3] D. Lowe. Distinctive imagefeatures from scale-invariant keypoints. IJCV, 2004.
[4] N. Dalal and B. Triggs. Histograms of oriented gradients for humandetection. In CVPR, 2005.

[5] Liu, Wei, et al. “SSD:Single Shot MultiBox Detector.” European Conference on Computer VisionSpringer International Publishing, 2016:21-37.

[6] Fu C Y, Liu W, Ranga A, et al.DSSD : Deconvolutional Single Shot Detector[J]. 2017.

[7] Li Z, Zhou F. FSSD: FeatureFusion Single Shot Multibox Detector[J]. 2017.

[8] Redmon, Joseph, et al.“You Only Look Once: Unified, Real-Time Object Detection.”(2015):779-788.

[9]Redmon, Joseph, and A. Farhadi. “YOLO9000: Better, Faster,Stronger.” (2016):6517-6525.

[10]Law H, Deng J. CornerNet: Detecting Objects as PairedKeypoints[J]. 2018.

[11]Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich featurehierarchies for accurate object detection and semantic segmentation. In CVPR2014.

[12]Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. FasterR-CNN: Towards real-time object detection with region proposal networks. InNeural Information Processing Systems (NIPS), 2015.

[13]Lin T Y, Dollár P, Girshick R, et al. Feature Pyramid Networksfor Object Detection[J]. 2016.

[14]Cai Z, Vasconcelos N. Cascade R-CNN: Delving into High QualityObject Detection[J]. 2017.

[15] Dai J, Li Y, He K, et al.R-FCN: Object Detection via Region-based Fully Convolutional Networks[J]. 2016.

[16] Li Z, Peng C, Yu G, et al.Light-Head R-CNN: In Defense of Two-Stage Object Detector[J]. 2017.

[17]Bodla N, Singh B, Chellappa R, et al. Soft-NMS — Improving ObjectDetection with One Line of Code[J]. 2017.

[18]Softer-NMS: Rethinking Bounding Box Regression for Accurate ObjectDetection. arxiv id:1809.08545

[19]Jiang B, Luo R, Mao J, et al. Acquisition of LocalizationConfidence for Accurate Object Detection[J]. 2018.

版权声明

原创文章，禁止私自转载

张士峰

基于深度学习的通用物体检测算法对比探索

1. 主题简介

目前基于深度学习的通用物体检测算法大致可以分为两类：一步法检测器和二步法检测器。一步法检测器有较高的检测速度，但检测精度不如二步法检测器。而二步法检测有较高的检测精度，但检测效率不如一步法检测器。为了使得一步法检测器获得二步法检测器的检测精度，同时保持较高的检测效率，本文作者对一步法和二步法检测器进行了一系列探索，提出了RefineDet、SRN、AlignDet等系列算法。此次分享，首先概括地介绍通用物体检测算法，接着介绍作者的一系列相关工作，最后对物体检测的发展进行讨论与展望。

2. 具体内容

2.1 引言

目前，基于深度学习的物体检测算法大致分为两类：一步法检测器和二步法检测器。一步法检测器在原图上铺设一系列锚点框，利用一个全卷积网络，对这些锚点框进行一次分类和一次回归，得到检测结果。而二步法检测器在原图上铺设一系列锚点框，先利用一个全卷积网络对对这些锚点框进行第一次分类和第一次回归，得到候选区域，扣出每一个候选区域的特征后，再利用一个网络对候选区域进行第二次分类和第二次回归，得到最终的检测结果。相对于一步法检测器，二步法检测器多了额外的第二步，若在相同的条件下，如输入、锚点框、机器等，一步法一般胜在高效率，而二步法有个更高的精度，现在各个检测库上排名靠前的算法，基本都是二步法。代表性的二步法检测器有Faster R-CN[1]、R-FCN[2]、FPN[3]、Cascade R-CNN[4]，其中Faster R-CNN是奠基性工作，基本所有的检测算法的，都是在它的基础上改进的。一步法检测器则有YOLO[5]、SSD[6]、RetinaNet[7]、CornerNet[8]，其中SSD是一步法检测器的集大成者，后续大部分的一步法工作都是基于它的。

二步法相对于一步法，多了后面扣特征并进一步分类和回归，这一步一般比较耗时但能显著提升精度，原因是它让二步法相对于一步法有了以下4个优势：

二阶段的分类：二步法中的第一步分类时，正负样本是极不平衡的，导致分类器训练困难，这也是一步法效果不如二步法的原因之一。而第二步分类时，第一步会帮第二步滤掉很多简单负样本，使得第二步分类中时正负样本比例比较平衡，即二步法可以很大程度地缓和正负样本极不平衡的问题。
二阶段的回归：二步法中的第一步对锚点框进行校正，然后把校正后得到的候选框送给第二步做进一步的校正。
二阶段的特征：在二步法中，第一步和第二步法除了共享的特征外，都有自己独有的特征，专注于自身不同难度的任务，如第一步的特征专注于二分类和初步回归，第二步的特征处理多分类和精确回归。
特征校准：二步法中的RoIPooling操作会把候选区域对应的特征抠出来，达到了特征校准的目的，而一步法中特征是不对齐的。

为了能让一步法也具备二步法的这些优势，作者提出了RefineDet、SRN、AlignDet等一系列检测算法。

2.2 RefineDet[9]

为了让一步法检测器具备二步法检测器的优点，作者设计了一个新颖的算法RefineDet，能够让一步法具备二阶段特征、二阶段分类、二阶段回归，从而在保持一步法速度前提下，获得了二步法的精度。上图是RefineDet的检测框架，由ARM和ODM 模块组成，它俩由TCB连接。ARM专注于二分类，为后续ODM滤掉大量的简单负样本，同时进行初级的边框校正，为后续ODM提供更好的回归起点。ODM把ARM优化过的锚点框作为输入，专注于多分类和精准的边框校正。其中ODM没有使用耗时的逐区域操作，而是直接通过TCB转换ARM特征、融合高层特征，以得到感受野丰富、细节充足、内容抽象的特征，用于进一步的分类和回归，使得一步法检测器RefineDet具备了二步法的二阶段分类、二阶段回归、二阶段特征这3个优势。

2.3 SRN[10]

提出RefineDet算法后，作者用相同的思路来解决人脸检测中，回归位置不够准、召回效率不够高的问题。但发现，在处理人脸检测这一特殊任务时，并不是在所有的检测层上做二阶段分类和二阶段回归都有提升。二阶段分类用于较浅的3个检测层上有效果，而在较深的3个检测层上没提升，原因是98.5%的锚点框关联于较浅的3个层，这些层存在正负样本不平衡的问题，二阶段分类得以发挥作用，而较深的3个层只有1.5%的锚点框，正负样本比较平衡，在这些层使用二阶段分类不会有提升还会增加耗时。此外，二阶段回归用于较深的3个检测层上有效果，而在较浅的3个检测层上会影响性能。原因是较浅层关联的98.5%锚点框是用来检测小人脸的，小人脸的精准回归比较困难，如果强行让这些层利用二阶段回归去得到更准的小人脸位置，会影响更重要的分类任务，相反的，较深的3个层则不存在这种问题，适合做二阶段回归来提升大中尺度的人脸位置。

2.4 AlignDet

如图所示，(a)、(b)、©分别是ARM、ODM、ADM进行检测所依据的锚点框和特征位置。可以看出，RefineDet虽然有了二阶段分类、二阶段回归、二阶段特征，但不具备特征校准这一优点，即ODM所依据的锚点框被ARM校正了，但是特征的位置没有随着锚点框的变化而被校准。作者最新的工作AlignDet中，其中一个贡献点是，让ADM不仅所依据的锚点框被ARM校正，而且特征的位置也随着锚点框的变化而被校准，使得ADM根据更精准的特征进行下一步检测。

3. 讨论展望

更快的速度

检测算法的精度越来越高，但速度越来越慢，在强大的GPU上都不能达到实时处理的速度，更别说在CPU或嵌入式等设备上，因此如何利用剪枝、量化、知识蒸馏等技术，针对检测模型进行特定加速，是一个比较有意义的研究方向。

更高的精度

虽然各个检测数据库性能指标已经接近饱和，但都还有一定的提升空间，如WIDERFACE和PASCAL VOC都还有10个点左右的空间，这些提升空间一般都是集中于特定的问题，如小尺度、遮挡等物体的检测，因此可以针对特定检测问题，提出专有解决方案，来提升性能。

多任务联合

检测任务被研究了好多年，已取得了巨大的进展，现今逐步开始与其他任务融合，进行端到端的多任务联合，如检测与关键点、属性、分割等多任务联合，其中最近比较火的实例分割和全景分割就是检测和分割的多任务融合。因此检测的多任务联合也是一个趋势。

视频物体检测

学术界已有大量的工作对静态图片物体检测做了深入的研究，但视频物体检测的研究相对来说还较少，而在实际应用中，大部分场景又是视频序列，因此如何利用视频序列的连续性和冗余性这两个特点，进行高效率高精度的物体检测是一个研究热点。

4. 参考文献

[1] Shaoqing Ren, Kaiming He, RossB. Girshick, Jian Sun. Faster R-CNN: Towards Real-Time Object Detection withRegion Proposal Networks. NIPS 2015.

[2] Jifeng Dai, Yi Li, Kaiming He,Jian Sun. R-FCN: Object Detection via Region-based Fully ConvolutionalNetworks. NIPS 2016.

[3] Tsung-Yi Lin, Piotr Dollár,Ross B. Girshick, Kaiming He, Bharath Hariharan, Serge J. Belongie. FeaturePyramid Networks for Object Detection. CVPR 2017.

[4] Zhaowei Cai, Nuno Vasconcelos.Cascade R-CNN: Delving Into High Quality Object Detection. CVPR 2018.

[5] Joseph Redmon, Santosh KumarDivvala, Ross B. Girshick, Ali Farhadi. You Only Look Once: Unified, Real-TimeObject Detection. CVPR 2016.

[6] Wei Liu, Dragomir Anguelov,Dumitru Erhan, Christian Szegedy, Scott E. Reed, Cheng-Yang Fu, Alexander C.Berg. SSD: Single Shot MultiBox Detector. ECCV 2016.

[7] Tsung-Yi Lin, Priya Goyal, RossB. Girshick, Kaiming He, Piotr Dollár. Focal Loss for Dense Object Detection.ICCV 2017.

[8] Hei Law, Jia Deng. CornerNet:Detecting Objects as Paired Keypoints. ECCV 2018.

[9] Shifeng Zhang, Longyin Wen,Xiao Bian, Zhen Lei, Stan Z. Li. Single-Shot Refinement Neural Network forObject Detection. CVPR 2018.

[10] Cheng Chi, Shifeng Zhang,Junliang Xing, Zhen Lei, Stan Z. Li, Xudong Zou. Selective Refinement Networkfor High Performance Face Detection. AAAI 2019.

版权声明

原创文章，禁止私自转载