超详细干货 | 三维语义分割概述及总结

中科院博士，《视觉惯性SLAM》图书作者。聚焦机器人定位建图

本文详细解析三维语义分割的几个主流方案，文末给出了对比
作者任浩帆，杭州电子科技大学智能信息处理实验室大三学生。长江后浪推前浪啊
文中含大量链接，因公众号限制无法显示，可在文末点阅读原文查看

本文提纲：

0. 三维表示的数据结构0.1. Point cloud0.2 3D voxel grids0.3 collections of images/muti-view0.4 polygon1. PointNet1.1 提升准确度的关键步骤1.1.1. 解决无序性1.1.2. 解决几何旋转问题1.2 网络结构1.3 结果2. PointNet++2.1 网络结构2.2 自适应的特征提取层2.2.1 MSG(Multi-scale grouping)2.2.2 MRG(Multi-resolution grouping 2.3 特征传播2.4 结果3. PointSIFT4. SPG4.1 geometric partition

4.2 构建SPG 4.3 得到上下文特征

4.4 上下文分割

5. 3P-RNN 5.1 Pointwise pyramid pooling

5.2 RNN for context ensemble

6. pointwize 7. 效果比较 8. 总结

语义分割需要两部分

classification: 需要全局信息
segmentation：更加依赖全局信息和局部信息
一般的网络结构是：提特征-特征映射-特征图压缩（降维）-全连接-分类，其实就是encoder-decoder的过程，比如在二维的的pspnet，fcn等等, 可能还有CRF去调整

0. 三维表示的数据结构

0.1. Point cloud

本质是对三维世界几何形状的低分辨率重采样，因此只能提供片面的几何信息 点云的一些feature：

1. normal 法向量
2. intensity 激光雷达的采样的时候一种特性
强度信息的获取是激光扫描仪接受装置采集到的回波强度，此强度信息与目标的表面材质、粗糙度、入射角方向，以及仪器的发射能量，激光波长有关

3. local density 局部稠密度
4. local curvature 局部曲率
5. linearity, planarity and scattering propesed by [this paper]Dimension- ality based scale selection in 3D lidar point clouds
6. verticality feature proposed by Weakly supervised segmentation-aided classification of urban scenes from 3d LiDAR point clouds

无序性点云实际上是无序的，比如有8个点云，你放到矩阵里面，是有顺序的，但是实际上打乱顺序也都表示的是同样的一个点云。换句话说，不同的矩阵表示的是同一个点云，而你分割的结果肯定不可能对于不同的输入表示矩阵，结果不一样。

如果有N个点，就需要对N！permutations invariant

解决方法：

sorting

但是实际上不存在这样一个稳定的从高纬度到1维

发布于 2019-03-20 19:47

语义分析

图像分割

计算机视觉

超详细干货 | 三维语义分割概述及总结

0. 三维表示的数据结构

0.1. Point cloud

文章被以下专栏收录

计算机视觉life