CVPR 2023 | MSeg3D:用于自动驾驶的多模态3D语义分割(浙江大学

  论文:https://arxiv.org/pdf/2303.08600.pdf作者单位:浙江大学 University of Glasgow LiDAR和摄像机是实现自动驾驶三维语义分割的两种模态。由于激光点的不足,目前流行的仅使用lidar的方法在分割小而远的目标时存在严重的缺陷,而鲁棒多模态解决方案还没有得到充分的研究,本文研究了三个关键的固有困难:模态异质性、有限的检测器视场交点、以及多模态数据增强。本文提出了一种多模态三维语义分割模型(MSeg3D),该模型采用了联合模态内特征提取和模态间特征融合的方法,以减少模态异质性。MSeg3D中的多模态融合包括基于几何的特征融合GF-Phase、跨模态特征补全和基于语义的特征融合SF-Phase。通过对LiDAR点云和多相机图像分别应用非对称变换(asymmetric transformations),恢复了多模态数据增强,使模型训练具有多样化的增强变换。MSeg3D在nuScenes、Waymo和SemanticKITTI数据集上实现了最先进的结果。在多帧输入和多帧点云输入出现故障的情况下,MSeg3D仍然表现出鲁棒性,改善了LiDAR-only基线。

  作者:汽车人 | 自动驾驶之心->:【语义分割交流群】点击关注@自动驾驶之心,第一时间看到最前沿与价值的CV/自动驾驶/AI类工作~强烈推荐!自动驾驶与AI学习社区:欢迎加入国内首个自动驾驶开发者社区!这里有最全面有效的自动驾驶与AI学习路线(感知/定位/融合)和自动驾驶与AI公司内推机会!

  求职社群来了!面向自动驾驶与AI相关的算法/开发求职,面试题目/面经/日常吐槽应有尽有!

  本文提出了一种多模态分割模型MSeg3D,该模型采用了联合模态内特征提取和模态间特征融合,在具有竞争力的nuScenes[3]、Waymo[37]和SemanticKITTI[1]自动驾驶数据集上实现了最先进的三维分割性能。该提出的框架在CVPR 2022年的Waymo 3D语义分割挑战赛中获得第二名。

  本文提出了跨模态特征补全和基于语义的特征融合阶段。据本文所知,这是第一次解决传感器FOV intersection外被忽视和不适用的(overlooked and inapplicable)多模态融合问题。

  通过对点云和图像进行非对称增强变换,提出的非对称多模态数据增强方法显著增加了训练模型多模态样本的多样性,具有鲁棒性改进。

  对本文方法的改进和鲁棒性的广泛实验分析清楚地研究了本文的设计。

  图2。 概述本文的多模态三维语义分割模型(MSeg3D)。 对于多模态特征融合,GF-Phase主要包括基于几何的特征融合模块(GFFM),而SF-Phase主要包括激光雷达语义特征聚合模块(SFAM)、摄像机 SFAM和基于语义的特征融合模块(SFFM)。

  本文提出了一种 top-performing 多模态三维语义分割方法MSeg3D,其内在动机是解决上述三个技术难点。 i)不同于现有方法中单独提取模态特征[13,25,42,51],本文联合优化了模态内特征提取和模态间特征融合,以驱动异构模态之间的最大相关性和互补性。 ii)为了克服FOV intersection外多模态融合被忽略的问题[25,67],本文提出了一个跨模态特征补全和一个基于语义的特征融合阶段SF-phase与基于几何的特征融合阶段GF-phase协同工作。 对于FOV intersection以外的点,前者在跨模态监督的显式指导下,利用预测的伪摄像机特征(pseudo-camera features)来补全缺失的摄像机特征。 对于FOV intersection内外的所有点,后期的S-FPhase利用多头注意力[41]来建模点与感兴趣类别之间的语义关系,以便本文能够专注地融合从所有可见场聚集到每个点的语义嵌入。 iii)将具有挑战性的多模态数据增强方法分解为激光雷达、相机世界(camera worlds)和本地相机(local cameras)中的非对称变换,从而使灵活的排列丰富训练样本。

  视频课程官网:https://www.zdjszx.com自动驾驶感知:YOLOv3~YOLOv8/YOLOX/PPYOLO系列全栈学习教程自动驾驶感知:国内首个BEV感知全栈学习教程(纯视觉+多传感器融合方案)自动驾驶感知:国内首个多模态3D目标检测全栈教程(前融合/特征级融合/后融合)自动驾驶感知:多传感器融合与多目标跟踪全栈教程(Camera/Lidar/Radar)自动驾驶感知:多传感器融合中的毫米波雷达-视觉融合感知全栈教程(深度学习+传统方式)自动驾驶多传感器标定:Lidar+Radar+Camera+IMU离线/在线近20+标定方案自动驾驶规划控制:从0到1彻底搞懂自动驾驶中的运动规划控制算法自动驾驶模型部署:基于TensorRT的CNN/Transformer/检测/BEV模型四大部署代码建了自动驾驶之心语义分割交流群!想要进交流群的同学,可以直接加微信号:AIDriver001。加的时候备注一下:语义分割+学校/公司+昵称,即可。然后就可以拉你进群了。

  自动驾驶之心 | CVPR23最新 | PVO:全景视觉里程计(VO和全景分割双SOTA)!

  自动驾驶之心 | CVPR2023 | 3D目标检测在常见极端场景下的鲁棒性基准(激光+视觉27种方案)

  自动驾驶之心 | 最新综述!AIGC到底是什么?都有哪些应用?一文尽览!

  自动驾驶之心 | CVPR 2023 | ACL-SPC:用于自监督点云补全的自适应闭环系统

  自动驾驶之心 | CVPR 2023 | PiMAE:用于3D目标检测的点云和图像交互式自动编码器(港中文&北大)

  自动驾驶之心 | 小内存有救了!Reversible ViT:显存减少15倍,大模型普及曙光初现!

  自动驾驶之心 | 车道图新方案!LaneGAP:基于路径的在线车道图构建(华科&地平线)

  自动驾驶之心 | CVPR 2023 | LinK:基于lidar的3D感知的线性Kernel

  自动驾驶之心 | CVPR 2023 | 基于多视图投影和方向一致性的弱监督单目3D检测

  自动驾驶之心 | 超越LiDAR!最新RV融合算法CRN:实时、鲁棒、高效的3D感知(ICLR 2023)

  自动驾驶之心 | CVPR 2023|基于时空神经辐射场的三维点云多帧非线性插值

  自动驾驶之心 | CVPR 2023 | 多视图3D目标检测中的viewpoint equivariance