孙可:中国科学技术大学信息学院在读博士生,导师为刘东副教授,目前在微软亚洲研究院VC组的实习生,导师是王井东和肖斌老师。他的研究兴趣包括人体姿态估计、语义分割。至今在ICCV、CVPR、BMVC等国际顶级会议上发表过论文。
报告题目:人体姿态估计中的高分辨率特征学习
报告摘要:人体姿态估计任务是一个对定位精度要求很高的任务,预测关键点的空间位置时所采用的特征图的分辨率对结果影响十分明显。现在主流的网络框架中,都是从低分辨率特征中恢复高分辨特征,极大的造成了空间精度上的损失。
在本次讨论中,我将介绍我们在CVPR2019上发表的题为:”High-Resolution Representation Learning for Human Pose Estimation”的论文。在这个工作中,我们设计了新的网络框架,称为高分辨网络(HRNet)。相比于先前的网络,我们在整个网络中始终保持着高分率特征,并通过不断的多尺度特征融合提升高分辨率特征的表达能力,从而获得更加精准的检测结果。我们所设计的网络在计算量和参数量都小于之前最好的方法的情况下,在多个标准数据集上都取得了最好的效果,并且网络可以很容易拓展到其他的计算机视觉任务中,比如语义分割、物体检测以及人脸关键点检测等等。
Spotlight:
- 人体姿态估计框架的总结和分析
- 新的网络框架:高分辨网络
1. Stacked Hourglass Networks for
推荐理由:这篇工作中提出的Hourglass结构,是2016-2018年之间大部分人体姿态估计工作中所采用的基础结构。依靠级联网络中不断的多尺度特征融合以及多级监督机制,其性能相较于之前的工作有显著的提升。
2. Simple Baselines for Human Pose Estimation
推荐理由:这篇工作中以简单的网络结构ResNet + Transposed Convolution的方式,在MSCOCO和PoseTrack中都取得了当时最好的效果,并在COCO 2018的Keypoint Detection Task 取得了第二名,以及PoseTrack2018 Challenge的第一名。
3. Deep High-Resolution Representation Learning for Human Pose Estimation

推荐理由:这篇工作中提出了注重保留和提升高分辨率特征的设计思想,提出了全新的网络结构——高分辨网络(HRNet)。通过保持高分辨率特征,并且通过多尺度特征融合加强高分辨率特征的表达特征,极大的提高了空间定位精度。