简介:本文介绍了由清华大学交叉信息研究院与理想汽车联合提出的DriveVLM系统,该系统通过视觉大语言模型(VLM)显著提升自动驾驶能力,实现复杂场景下的精准决策与规划。
在自动驾驶技术日新月异的今天,如何进一步提升系统的环境感知与决策能力,成为了业界关注的焦点。近日,清华大学交叉信息研究院(以下简称清华叉院)与理想汽车携手,提出了创新的DriveVLM系统,该系统利用视觉大语言模型(VLM)的强大能力,为自动驾驶技术带来了新的突破。
DriveVLM系统的灵感来源于生成式AI领域兴起的视觉语言模型(VLM)。这类模型不仅能够理解图像中的视觉信息,还能将其转化为自然语言描述,从而实现对复杂场景的深度理解和推理。在自动驾驶领域,这一特性尤为重要,因为自动驾驶系统需要实时处理并理解道路上的各种动态和静态信息,以做出正确的驾驶决策。
DriveVLM系统采用了一个创新的Chain-of-Thought(CoT)推理流程,该流程包含三个关键模块:场景描述、场景分析和分层规划。
场景描述:首先,系统通过视觉编码器处理输入的图像序列,生成图像标记,并用自然语言描述驾驶环境,包括天气状况、道路类型、车道状况等。这一过程类似于人类驾驶员在驾驶前对环境的初步观察和理解。
场景分析:接着,系统对场景中的关键对象进行深入分析,包括其静态属性、运动状态和特定行为。例如,正在做手势的交警、横穿马路的行人等都会被列为关键对象。系统还会预测这些关键对象对车辆可能产生的影响,并生成场景摘要。
分层规划:最后,系统根据场景分析结果,制定详细的驾驶计划。这一过程分为基础行为(如加速、减速、左转等)、决策描述和轨迹航点三个层次。系统能够生成直观且可操作的驾驶决策,并给出未来的驾驶轨迹。
尽管VLM在视觉理解和推理方面表现出色,但其算力需求较高,且难以精确理解物体的空间位置和详细运动状态。为了克服这些挑战,研究团队进一步提出了DriveVLM-Dual系统。该系统结合了DriveVLM和传统自动驾驶系统的优点,通过集成3D物体感知和规划模块,实现了高频轨迹细化和3D接地能力。
DriveVLM-Dual的设计灵感来源于人脑的慢速和快速思维过程。它能够在复杂场景中自动选择最合适的处理策略,既保证了决策的准确性,又兼顾了实时性。
为了验证DriveVLM系统的有效性,研究团队在多个数据集上进行了大量实验。结果显示,DriveVLM在复杂场景下的驾驶决策能力显著优于传统自动驾驶系统。特别是在处理长尾问题时(如罕见的交通场景),DriveVLM表现出了更强的适应性和鲁棒性。
此外,研究团队还构建了场景理解规划(SUP)数据集SUP-AD,该数据集包含100k+图像和1000k+图文对,为自动驾驶系统的训练和评估提供了丰富的资源。
DriveVLM系统的提出,标志着自动驾驶技术向更高水平迈进了一大步。随着技术的不断发展和完善,我们有理由相信,未来的自动驾驶系统将更加智能、更加安全、更加可靠。DriveVLM系统的成功应用,也将为其他领域的智能化发展提供有益的借鉴和启示。
综上所述,DriveVLM系统以其独特的视觉大语言模型技术和创新的Chain-of-Thought推理流程,为自动驾驶技术注入了新的活力。我们有理由期待,在不久的将来,DriveVLM将引领自动驾驶技术走向新的高度。