自动驾驶多模态大模型发展概览

作者:十万个为什么2024.11.21 13:29浏览量:23

简介:本文综述了2024年自动驾驶领域的多模态大模型,从DriveGPT4、DriveMLM到DriveLM、DriveVLM,详细阐述了这些模型的技术特点、应用场景及发展趋势,展现了自动驾驶技术的最新进展。

自动驾驶多模态大模型发展概览

随着人工智能技术的飞速发展,自动驾驶技术也迎来了前所未有的变革。其中,多模态大模型在自动驾驶领域的应用尤为引人注目。本文将从DriveGPT4、DriveMLM、DriveLM到DriveVLM等模型出发,详细探讨自动驾驶多模态大模型的技术特点、应用场景及发展趋势。

一、DriveGPT4:可解释的端到端自动驾驶

DriveGPT4是基于大型语言模型(LLM)的自动驾驶解决方案,它实现了可解释的端到端自动驾驶。该模型能够处理多种输入类型,包括视频和文本,通过预训练的视觉编码器和语言模型,将视频帧转换为文本域tokens,并基于多模态输入数据预测下一步的控制信号。这种方法的优势在于其可解释性,使得自动驾驶的决策过程更加透明和可控。

DriveGPT4的训练过程分为预训练和微调两个阶段。在预训练阶段,模型在大量的视频-文本对上进行学习,以建立视频和文本之间的对应关系。在微调阶段,则使用特定的自动驾驶数据集对模型进行训练,以使其适应自动驾驶场景。通过这种方法,DriveGPT4能够在复杂的驾驶环境中做出准确的决策。

二、DriveMLM:规划导向的自动驾驶

DriveMLM是另一种基于多模态大模型的自动驾驶解决方案,它强调规划导向的自动驾驶。该模型将检测、跟踪、建图、轨迹预测等任务整合到一个基于Transformer的端到端网络框架下,实现了多任务和高性能的自动驾驶。

DriveMLM的核心在于其MLLM Planner模块,该模块包含多模态分词器和多模态解码器。多模态分词器负责将时序多视图图像、激光雷达点云、系统信息和用户需求等信号输入转化为统一的token embedding。而多模态解码器则基于这些token生成图片描述、决策推理和驾驶决策等内容。

通过高效的数据采集策略和闭环测试,DriveMLM能够在各种自动驾驶场景中表现出色。其驾驶得分和路线完成度均大幅领先于其他算法,并在平均每次接管的行驶里程间隔(MPI)指标上更具优势。

三、DriveLM:图视觉问答驱动的自动驾驶

DriveLM是一种基于图视觉问答(Graph Visual Question Answering)的自动驾驶模型。该模型通过构建图结构来表示驾驶场景中的物体、属性和关系,并利用视觉问答技术来提取关键信息以指导自动驾驶。

然而,目前关于DriveLM的具体技术细节和应用场景相对较少,因此本文在此不做过多阐述。但可以预见的是,随着技术的不断发展,DriveLM有望在自动驾驶领域发挥更大的作用。

四、DriveVLM:视觉语言模型融合的自动驾驶

DriveVLM是清华大学与理想汽车合作提出的端到端大模型,它在自动驾驶学术研究中表现优异。该模型结合了视觉语言模型(VLMs)和传统的自动驾驶规划器,形成了一个快-慢双系统设计。

DriveVLM的模型pipeline包括场景描述、场景分析和层级规划三个主要模块。其中,场景描述模块负责环境描述和关键物体识别;场景分析模块对关键物体特征及其对自车潜在的驾驶影响进行分析;层级规划模块则基于分析结果生成驾驶决策。

通过预训练和微调等训练策略,DriveVLM能够在复杂的驾驶环境中准确识别关键物体并做出合理的驾驶决策。同时,其快-慢双系统设计也保证了实时推理能力。

五、应用场景与未来趋势

自动驾驶多模态大模型的应用场景广泛,包括但不限于乘用车自动驾驶、商用车自动驾驶、物流配送等领域。随着技术的不断发展,这些模型有望在提高驾驶安全性、降低交通事故率、优化交通流量等方面发挥重要作用。

未来,自动驾驶多模态大模型的发展趋势将呈现以下几个特点:一是模型规模的不断扩大,以提高模型的表达能力和泛化能力;二是训练数据的不断丰富和优化,以提高模型的准确性和鲁棒性;三是跨模态融合技术的不断创新和应用,以实现更加智能化和人性化的自动驾驶。

六、产品关联:千帆大模型开发与服务平台

在自动驾驶多模态大模型的开发和应用过程中,千帆大模型开发与服务平台可以发挥重要作用。该平台提供了丰富的算法模型和工具集,支持用户进行模型训练、调优和部署等操作。同时,其强大的计算能力和数据存储能力也为大规模模型的训练和应用提供了有力保障。

例如,在DriveGPT4、DriveMLM等模型的开发过程中,千帆大模型开发与服务平台可以提供高效的模型训练和优化服务。通过利用平台的算法模型和工具集,用户可以更加便捷地进行模型开发和应用。

此外,千帆大模型开发与服务平台还可以与其他技术和服务进行融合创新,如与曦灵数字人进行交互设计、与客悦智能客服进行语音交互等,以进一步提升自动驾驶技术的智能化水平和用户体验。

综上所述,自动驾驶多模态大模型是自动驾驶技术发展的重要方向之一。随着技术的不断进步和应用场景的不断拓展,这些模型有望在自动驾驶领域发挥越来越重要的作用。同时,千帆大模型开发与服务平台等技术的支持也将为自动驾驶技术的发展提供更加广阔的空间和机遇。