Geometric Relation Learning in 3D Point Cloud Analysis
导读
近年来,卷积神经网络(CNN)在图像这类规则数据的处理中获得了举世瞩目的成功,然而如何拓展CNN以分析点云这种不规则数据,仍然是一个开放的研究问题。对于点云而言,每一个点并非孤立存在,相邻的点形成一个有意义的形状,因此对点间关系进行深度学习建模非常重要。在SFFAI25分享会中:
我首先介绍了点云分析的任务以及难点,由此引出了深度学习关系建模的合理性;
接着分享了一些相关的经典论文;
最后介绍了我们最新的CVPR 2019 Oral工作:Relation-Shape CNN, 通过几何关系卷积将2D CNN拓展至3D点云分析领域。
具体内容推文分享
第一部分:任务及挑战
介绍点云分析的一些任务,如下图所示。在现代应用中,大部分应用都需要对点云所隐含的3D形状有一个高级别的语义理解,比如点云分类、目标检测和场景理解等。相比于传统方法,以CNN为代表的深度学习方法更加擅长对物体进行语义级别的理解。

介绍点云分析的一些挑战,如下图所示。主要包括:点云的置换排列不变性、刚体变换语义不变性、传感器等因素引起的损坏、异常值和各种噪声。

第二部分:介绍一些相关的经典论文,包括:PointNet(++)、DFN、ECC和DGCNN。

RS-CNN的基本卷积算子如图2所示。为了实现局部卷积归纳学习,我们将局部点云子集
[imath]P_{\text {sub }} \subset \mathbb{R}^{3}[/imath]
建模为一个球形邻域,该邻域的中心点为采样点
[imath]x_i[/imath]
,其余点作为
[imath]x_i[/imath]
的邻居点
[imath]x_{j} \in \mathcal{N}\left(x_{i}\right)[/imath]
。在该邻域上,我们构建了一个一般性的卷积操作方法:
[math]\mathbf{f}_{P_{\text {sub }}}=\sigma\left(\mathcal{A}\left(\left\{\mathcal{T}\left(\mathbf{f}_{x_{j}}\right), \forall x_{j}\right\}\right)\right), d_{i j}<r \forall x_{j} \in \mathcal{N}\left(x_{i}\right)(1)[/math]
其中
[imath]x[/imath]
是三维点,
[imath]f[/imath]
是特征向量,
[imath]d_{ij}[/imath]
是点
[imath]x_i[/imath]
和
[imath]x_j[/imath]
的3D欧式距离,
[imath]r[/imath]
是球半径。卷积结果
[imath]f_{P_{sub}}[/imath]
通过首先使用函数
[imath]\mathcal{T}[/imath]
对邻域中每一个点进行特征变换,然后使用函数
[imath]\mathcal{A}[/imath]
聚集变换后的特征,最后经过非线性
[imath]\sigma[/imath]
激活后获得。注意到仅当
[imath]\mathcal{A}[/imath]
是对称函数,并且函数
[imath]\mathcal{T}[/imath]
对邻域中每一个点均共享参数时,
[imath]f_{P_{sub}}[/imath]
对输入点的顺序具有置换不变性。
在经典网格卷积中,特征变换函数实现为
[imath]\mathcal{T}\left(\mathbf{f}_{x_{j}}\right)=\mathbf{w}_{j} \cdot \mathbf{f}_{x_{j}}[/imath]
,其中
[imath][/imath]
为可学习的卷积权重,· 表示按元素相乘。该卷积方法在点云数据上操作时会有两个缺陷:
1)由于
[imath]w_j[/imath]
不共享参数,因此该卷积对输入点集不具备置换排列不变性。
2)在反向传播中
[imath]w_j[/imath]
的梯度仅与孤立点相关,因此该卷积难以捕捉到点间关系。
为了克服上述问题,我们将卷积转换为从几何关系中学习。在方法上,我们将
[imath]w_j[/imath]
替换为
[imath]w_{ij}[/imath]
,并让
[imath]w_{ij}[/imath]
从几何关系向量
[imath]h_{ij}[/imath]
中学习一个高维的映射函数
[imath]\mathcal{M}[/imath]
。
[imath]h_{ij}[/imath]
是预先定义的点
[imath]x_i[/imath]
和
[imath]x_j[/imath]
之间的几何先验。该过程可以描述为:
[math]\mathcal{T}\left(\mathbf{f}_{x_{j}}\right)=\mathbf{w}_{i j} \cdot \mathbf{f}_{x_{j}}=\mathcal{M}\left(\mathbf{h}_{i j}\right) \cdot \mathbf{f}_{x_{j}}(2)[/math]
其中映射函数
[imath]\mathcal{M}[/imath]
的目标是从几何先验中学习一个高维的、有表现力的关系表达,以编码3D点集的空间布局,这里我们使用共享的多层感知器(MLP)来实现映射函数
[imath]\mathcal{M}[/imath]
。以这种方式,
[imath]w_j[/imath]
巧妙地转换为
[imath]w_{ij}[/imath]
,它的梯度由预定义的几何先验
[imath]h_{ij}[/imath]
决定,且与点
[imath]x_i[/imath]
和
[imath]x_j[/imath]
均几何相关。于是,公式(1)中的
[imath]\mathrm{f}_{P_{\mathrm{sub}}}[/imath]
变为:
[math]\mathbf{f}_{P_{\text {sub }}}=\sigma\left(\mathcal{A}\left(\left\{\mathcal{M}\left(\mathbf{h}_{i j}\right) \cdot \mathbf{f}_{x_{j}}, \forall x_{j}\right\}\right)\right)(3)[/math]
该卷积方法聚集了点
[imath]x_i[/imath]
和所有邻居点
[imath]x_{j} \in \mathcal{N}\left(x_{i}\right)[/imath]
之间的几何关系表达,因此可以对3D点的空间分布进行显式的推理,进而有区分力的反映其隐含的3D形状。其中几何先验
[imath]h_{ij}[/imath]
可以灵活设置,因为映射函数
[imath]\mathcal{M}[/imath]
能将
[imath]h_{ij}[/imath]
映射为高维的关系向量,以实现与特征
[imath]\mathbf{f}_{x_{j}}[/imath]
进行通道对齐。在经典图像CNN中,随着图像分辨率的降低,特征通道数会逐渐增加以提升表达能力。基于此,我们在
[imath]f_{P_{\mathrm{sub}}}[/imath]
上增加共享的MLP以实现通道提升映射。

图3为经典2D网格卷积的示意图。注意到
[imath]w_j[/imath]
总是隐含着
[imath]x_i[/imath]
和
[imath]x_j[/imath]
的一个固定位置关系,也就是说,
[imath]w_j[/imath]
在学习过程中受到了限制,实际上编码了一种规则的网格关系。因此,我们所提出的关系卷积方法具有通用性,它也能够建模经典的2D网格卷积。
为了验证RS-CNN的有效性,我们在主流的点云分析任务上进行了测试,包括点云分类、部件分割和法向预测。ModelNet40上的分类结果如表1所示,在仅使用3D坐标XYZ和1k个稀疏点作为输入的情况下,RS-CNN仍然实现了最佳分类效果。

ShapeNet part上的分割效果如图6所示。尽管点云所形成的形状多种多样,并且很容易产生混淆,RS-CNN依然可以准确地将部件分割出来。

ModelNet40上的法向预测结果如图7所示。与PointNet以及PointNet++相比,RS-CNN可以取得更加准确的法向预测结果。尽管如此,RS-CNN仍然难以有效推理棘手的形状,比如旋转楼梯以及错综复杂的植物。

公式(3)中的几何先验
[imath]h_{ij}[/imath]
可以灵活地定义,我们在ModelNet40上测试了五个比较直观的例子,结果如表6所示。可以看到,仅仅使用3D欧式距离作为低维几何关系(model A),RS-CNN依然能够取得92.5%的精度,这很让人印象深刻。此外,为了测试RS-CNN的几何形状推理能力,我们强制置零某一维的坐标值,即将3D点云投影到2D空间(model E,图9),得到的分类精度均接近92.2。这证明了RS-CNN不仅可以从3D点云中学习3D形状,还能从2D投影空间中推理3D形状。


为了验证所提出的几何关系卷积的鲁棒性,我们设置几何先验
[imath]h_{ij}[/imath]
为3D欧式距离,然后在ModelNet40上进行鲁棒性测试,结果如表7所示。虽然几何关系
[imath]h_{ij}[/imath]
能够做到旋转不变,但网络初始输入的特征XYZ仍然会受到旋转的影响。针对这一问题,我们引入法向将每一个局部点集旋转到以法向和采样点确定的局部坐标系中,实现了旋转不变。但该旋转会给形状识别带来困难,因此分类精度会有所下降。

版权声明