李顺恺:北京大学信息科学技术学院硕士研究生,主要研究方向为视觉SLAM、自监督学习视觉里程计、在线元学习。
报告题目:Sequential Adversarial Learning for Self-Supervised Deep Visual Odometry
报告摘要:即时定位与地图重建(SLAM)和视觉里程计(VO)是自动驾驶、移动机器人、VR/AR、三维重建等应用的关键技术。基于三维几何的经典SLAM已经有三十多年的研究历史,并在特定场景下取得了不错的效果。但经典SLAM依赖低级特征,无法面对成像模糊、动态物体、光照变化、快速运动等挑战性场景。由于深度学习可提取场景的高维特征表示,对挑战性的场景有更强的鲁棒性,因此近几年出现了许多将经典SLAM/VO和深度学习结合的方法。本文利用自监督学习的方式,将相机位姿和场景深度联合学习,摆脱了训练数据对真值的依赖。本文将自监督VO看作时序的生成和对抗学习的过程。本方法利用长时序的时空关联,显著降低了轨迹误差;将稠密深度用低维特征表示,通过更新低维特征来高效优化多帧的稠密深度;使用对抗学习的方式自动学习损失函数,克服了光度误差函数的局限性。
Spotlight:
将深度和位姿估计看作时序的自监督生成和对抗学习的过程;
用长序列的时空约束优化历史估计;
用神经网络自监督学习图优化。
1. Unsupervised Learning of Depth and Ego-Motion from Video
推荐理由:这是最早使用自监督学习方法实现VO的论文: SfMLearner,之后所有的自监督VO的框架都与之类似。SfMLearner借用了直接法SLAM的思想,用两个网络分别估计场景深度和相机位姿,通过视角合成将两者耦合起来,并用最小化光度误差联合学习深度和位姿估计。
2. GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose
推荐理由:与SfMLearner相比,GeoNet将深度、位姿和光流联合自监督学习。该方法利用光流的前后一致性,学习静态和动态光流,可识别场景中的动态物体。
3. CodeSLAM — Learning a Compact, Optimisable Representation for Dense Visual SLAM
推荐理由:这篇文章的最大贡献是发现了场景的低秩性表示,并提出了优化场景表示的方法。CodeSLAM发现稠密深度图可用128维的向量表示,从而将SLAM中稠密束集调整(photometric bundle adjustment)转化为仅需对128维向量和相机位姿的优化,显著降低了计算量。