VoxFromer：英伟达CVPR 2023引领单目3D语义场景补全新纪元

简介：英伟达在CVPR 2023上推出的VoxFromer，通过创新的Transformer架构，实现了从单目图像到完整3D语义场景的补全，标志着自动驾驶感知技术的重大突破。

VoxFromer：单目3D语义场景补全的新SOTA

在自动驾驶和机器人视觉领域，从二维图像中准确重建三维场景并理解其语义信息一直是研究的热点和难点。近日，英伟达在CVPR 2023上发布的VoxFromer模型，以其卓越的性能和创新的架构，为这一领域带来了新的突破。

VoxFromer简介

VoxFromer是一个基于Transformer的语义场景补全（SSC, Semantic Scene Completion）框架，它能够从单目图像中预测出空间中的体素占据和类别信息，从而构建出完整的3D语义场景。这一技术的核心在于其两阶段的设计：首先通过深度估计得到稀疏的可见和占据体素查询，然后利用Transformer模型将这些稀疏体素扩展为密集的3D体素网格。

技术亮点

1. 两阶段设计

VoxFromer的框架分为两个阶段：类不可知的查询提议（Class-Agnostic Query Proposal）和类特定的语义分割（Class-Specific Segmentation）。

第一阶段：利用现有的单目深度估计网络获取图像的深度信息，并通过一个轻量级的2D CNN网络生成稀疏的体素查询集。这些查询集代表了场景中可见的、占据的体素。
第二阶段：采用一个类似于掩蔽自编码器（MAE）的Transformer架构，通过自注意力和交叉注意力机制，将稀疏的体素查询集扩展为密集的3D体素网格，并完成逐体素的语义分割。

2. 稀疏到密集的Transformer

VoxFromer的创新之处在于其稀疏到密集的Transformer设计。传统的3D语义场景补全方法往往采用密集表示，但三维空间中大量的体素通常是不被占用的，这导致计算效率低下且显存占用高。VoxFromer通过稀疏表示和自注意力机制，有效地解决了这一问题，实现了高效且准确的3D场景补全。

3. 交叉注意力和可变形注意力

为了增强体素查询集的特征表示，VoxFromer引入了交叉注意力和可变形注意力机制。交叉注意力使得体素查询能够与图像特征进行交互，从而获取更丰富的视觉信息。而可变形注意力则通过参考点与局部感兴趣区域的相互作用，提高了特征提取的效率和准确性。

实验结果与应用

在SemanticKITTI数据集上的实验结果表明，VoxFromer在几何和语义方面的相对改进分别达到20.0%和18.1%，并且在训练期间将GPU内存减少了约45%，降至不到16GB。这一性能提升不仅验证了VoxFromer模型的有效性，也为其在自动驾驶、机器人视觉等领域的应用提供了坚实的基础。

实际应用

VoxFromer的应用前景广阔。在自动驾驶领域，它可以帮助车辆更准确地感知周围环境，提高规划和地图构建的精度。在机器人视觉领域，它可以帮助机器人更好地理解场景结构，实现更精准的导航和交互。此外，VoxFromer还可以应用于虚拟现实、增强现实等领域，为用户提供更加沉浸式的体验。

结论

英伟达在CVPR 2023上推出的VoxFromer模型，以其创新的架构和卓越的性能，为单目3D语义场景补全领域树立了新的标杆。随着自动驾驶和机器人技术的不断发展，VoxFromer有望在未来发挥更加重要的作用，推动相关领域的持续进步。

参考文献：

VoxFormer: Sparse VoxelTransformer for Camera-based 3D Semantic Scene Completion. 论文链接
英伟达CVPR 2023新作 I VoxFromer: 单目3D语义场景补全新SOTA! CSDN博客

代码仓库：

VoxFormer GitHub仓库：https://github.com/nvlabs/voxformer