视觉大语言模型在自动驾驶和智能交通中的最新应用（下）

您的位置：
门户
>> 文章精选
>> 业务知识
>> 车载测试
>> 查看资讯

视觉大语言模型在自动驾驶和智能交通中的最新应用（下）

发表于：2023-11-30 09:49

字体：大中小 | 上一篇 | 下一篇 | 我要投稿

作者：红豆沙冰来源：自动驾驶之心

车载测试

　　交通场景理解

　　一个正确而高水平的对交通场景的理解对驾驶安全至关重要。在下图中。

　　展示了GPT-4V 在一个交通事故场景和一个具有潜在风险的城市道路场景中的理解能力示例。有几个探索性工作利用VLMs通过特定的下游任务来理解交通场景。比如可以通过对场景图像进行描述来理解交通场景,也可以将视觉信息转化为语言描述，然后利用LLMs的强大推理能力来解决语义异常检测 (SAD)。NuScenes-QA 基于nuScenes数据集，在自动驾驶场景中建立了视觉问答 (VQA) 任务的baseline，为后续的研究提供了基础。Talk2BEV 采用鸟瞰 (BEV) 检测模型、密集字幕模型和文本识别模型构建了真实语言增强的BEV地图，并根据VQA任务评估模型在视觉和空间理解方面的性能。目前这方面的工作都还处于早期阶段，相信将来在这块儿应该会有越来越多的有趣的工作。

　　导航与规划

　　在导航领域，随着VLM的进步，尤其是CLIP 的提出，语言引导导航（LGN）任务开始从特定的预定义位置描述扩展到自由和任意的指令，这也推动了语言增强地图的发展。

　　语言导航

　　Talk to the Vehicle 提出了一种路标生成网络（WGN），它将语义占用和预定义的自然语言编码（NLE）映射到局部路标。规划模块然后使用局部路标来预测执行轨迹。Ground then Navigation 通过使用CLIP解决了语言导航任务。它提出了一个流水线，将视频帧，历史轨迹上下文和语言命令作为输入，并输出在每个时间戳上预测的导航mask和轨迹。ALT-Pilot 通过结合语言标志物（包括街道标志，交通信号和其他重要环境特征）来增强OpenStreetMap（OSM）道路网络，以替代传统的内存和计算昂贵的高清LiDAR地图。ALT-Pilot还利用CLIP在推断时预先计算每个标志物的特征描述符，并使用余弦相似度将它们与像素级视觉描述符进行匹配，从而促进了从语言导航指令到地图位置的对应，从而帮助多模态定位和导航。

　　预测和规划

　　一些研究还开始探索如何利用LLMs来提升运动规划和轨迹预测的性能。GPT-driver 将运动规划重新制定为语言建模问题，并将GPT-3.5模型转化为自动驾驶的运动规划器，想法主要是利用其强大的推理和泛化能力。CoverNet-T 提出了使用基于文本的场景描述和栅格化场景图像训练联合编码器进行轨迹预测的方法。它表明，基于文本的场景表示补充了图像编码的优势，并且联合编码器优于各自的对应部分。

　　决策与控制

　　在自动驾驶的决策和控制领域，有几项工作试图利用LLM的强大常识理解和推理能力来辅助驾驶员或是模拟并完全替代驾驶员。通过在AD中利用LLM进行闭环控制，大多数工作引入了一个记忆模块，用于记录驾驶场景、经验和其他重要的驾驶信息。

　　LanguageMPC 采用LLMs作为决策组件，解决需要人类常识理解的复杂自动驾驶场景。Drive as You Speak 提出了一个框架，将LLMs整合到自动驾驶中，并相应协调其他模块。驾驶员可以通过LLMs直接与车辆进行通信。该框架包括一个内存模块，将过去的驾驶场景经验保存在向量数据库中，其中包括决策线索、推理过程和其他有价值的信息。然后，LLMs根据所获得的经验和常识做出决策。DiLU 研究了人类驾驶员的驾驶方法，并提出了一个使用推理、记忆和反射模块促进LLMs与环境交互的范例。该方法将人类驾驶员的这些知识驱动能力嵌入到自动驾驶系统中。DwLLMs 将交通参与者和环境编码为对象级向量。它采用了一个两阶段的预训练和微调方法，使模型能够理解驾驶场景并生成驾驶动作。SurrealDriver 提出了一个基于LLMs的类人自动驾驶框架，该框架在CARLA模拟器内运行。通过记忆和安全机制，LLMs能够完成情境理解、决策和动作生成。它还学习人类驾驶员的驾驶习惯，并在闭环中持续优化驾驶技能。DLaH 引入了推理、解释和记忆模块，构建了一个基于GPT-3.5 和LLaMA-Adapter v2 的自动驾驶系统。它在场景理解和解决模拟中的长尾问题方面表现出强大的能力。

　　尽管现有的自动驾驶控制和决策工作完全依赖于低级逻辑模型 (LLMs)，但它们可以通过视觉-LLMs连接器与感知模块轻松连接，实现mid-to-mid或端到端的自动驾驶。

　　此外，为自动驾驶系统设计一个专门适用的视觉语言模型（VLMs）连接器是一个有前景的方向。相信在不久的将来会涌现出大量工作。

　　端到端自主驾驶

　　端到端自动驾驶系统是一个完全可微的系统，它将原始传感器数据作为输入，并产生规划和/或低级控制动作作为输出，这与VLMs中的M2T模型的结构非常契合。由于这种自然的协同作用，一些研究开始探索将M2T VLMs模型应用于端到端自动驾驶的可行性。与传统的端到端自主驾驶系统相比，基于大规模VLMs的端到端自动驾驶系统具有强大的可解释性、可信度和复杂的场景理解能力，为端到端自动驾驶的实际应用和实现铺平了道路。DriveGPT4 是利用大规模VLMs进行端到端自动驾驶任务的开创性工作，它将原始传感器数据和人类问题作为输入，并输出预测的控制信号和相应的答案。它保留了LLMs强大的zero-shot能力，并能处理未知情境。ADAPT 提出了一个基于Transformer模型的端到端自动驾驶流程。通过视频输入，ADAPT 连续输出控制信号以及操作的叙述和推理描述。与DriveGPT4不同，ADAPT 不包含视觉问答模块，而是将可解释的端到端自动驾驶转化为视觉字幕生成任务。

　　数据生成

　　借助生成网络的进展和成功，将条件生成模型应用于自动驾驶中，可以生成大规模高质量的数据，从而推动数据驱动型自动驾驶的发展。DriveGAN 学习驾驶视频序列及其相应的控制信号。通过将场景组件分解为动作相关和动作无关的特征，它可以控制生成视频中的车辆行为。这种能力使得高保真度、可控性的神经仿真和自动驾驶数据生成成为可能。BEVControl 以素描风格的BEV布局和文本提示作为输入，生成街景的多视角图像。它引入了控制器和协调器元素，确保素描和输出之间的几何一致性，以及多视角图像之间的外观一致性。这种方法有助于基于BEV素描进行可控自动驾驶场景样本生成的可能性。一些工作将世界模型纳入自动驾驶数据生成，以实现更合理、可预测和结构化的环境模拟。DriveDreamer 是一个完全从真实驾驶场景中学习的自动驾驶世界模型。它经历了两个训练阶段：首先从真实驾驶视频中理解和建模驾驶场景，从而获取结构化的交通信息。第二阶段通过视频预测任务构建驾驶世界模型，获得预测能力。GAIA-1 将视频、动作和文本描述作为输入，利用世界模型的强大能力来学习结构化表示并理解环境，将这些输入编码成一系列的标记。然后，它采用去噪视频扩散模型作为视频解码器，实现高度逼真的视频。

　　VLMs在智能交通系统中的应用

　　智能交通系统越来越普及，并且作为实现完全自动驾驶能力的重要一步。ITS通常由多传感器设置组成，由于其丰富而密集的语义信息，摄像头几乎总是存在的。与AD类似，VLMs也可以在许多方面促进ITS的发展，包括ITS感知和理解，以及ITS管理系统以及VLMs在ITS中的潜在应用。当前的工作如下表所示.

　　ITS的感知和理解

　　安装在交通基础设施上的多传感器系统数量的快速增长极大增强了ITS的能力。它促进了对交通环境的更全面的感知和理解，使ITS能够准确地识别和解读复杂的交通场景。

　　语言引导的车辆检索

　　车辆检索是ITS感知和理解的关键组成部分。为了引起研究人员在这个方向上的关注，AI City Challenge作为一个挑战任务举办了基于自然语言描述的车辆检索。作为这一集体努力的一部分，提出了一种基于自然语言的车辆多粒度检索方法。关键概念是引入基于语言增强的多查询检索模块。这个模块的思想是利用多个不完美的语言描述来实现更高的鲁棒性和准确性。另外MLVR提出了一种多模态语言车辆检索框架，它使用文本和图像提取器进行特征编码，随后通过视频识别模块生成视频向量序列。通过集成结合各种车辆特征的模块，MLVR为匹配控制创建了更丰富的车辆向量，并实现了语言引导的检索。

　　交通视觉场景推理

　　在ITS中，利用VLM的另一个新兴领域是视觉场景事件理解，通常形成为视觉问答（VQA）任务。文献70,提出了一种基于自动生成标题的弱监督交通领域视频问答与自动字幕方法。其核心贡献在于利用自动生成的合成标题对在线可用的城市交通视频进行微调，并将额外的交通领域知识注入到训练模型中。文献71提出了一种跨模态问题推理框架，用于识别事件级问题推理的时间原因背景。基于注意力的模块能够学习时间因果场景和问题对。文献72引入了Tem-Adapter，通过学习时间依赖关系来减小图像和视频领域之间的差距。在交通视频问答任务中表现出良好的性能。AnomalyCLIP采用CLIP模型进行视频异常检测。通过指定异常类别并使用上下文优化，它区分正常样本和异常样本，使模型能够识别异常实例。AnomalyCLIP在包括路边异常检测在内的各种数据集上取得了良好的结果。VLM增强的语义异常识别算法可以进一步扩展到ITS中的灾害或紧急响应。

　　ITS管理系统

　　ITS管理系统基于实时感知和场景理解提高交通系统的运营安全性和效率。通过管理交通信号，促进顺畅交通流动，及时更新道路状况，并提供及时事故报警。流量管理。先驱性研究探索了在交通流量管理领域中利用LLMs的应用，尤其是在交通信号控制方面。PromptGAT引入了一种基于提示的基于场地行动转换方法，这是LLMs在交通信号控制的实际应用中解决模拟到真实转换问题的首次应用。利用LLMs理解天气条件对交通状态和道路类型的影响，增强了在实际场景中政策的适用性，有效缩小模拟到真实的差距。

　　潜在应用

　　虽然许多方法已经探索了在各种交通场景中利用VLM的能力，但VLM在ITS中的全部潜力尚未得到充分发挥。

　　事故预测和检测

　　及时检测和预测事故的能力对确保道路安全至关重要。当前基于视觉的交通事故检测（TAD）和交通事故预测（TAA）仍面临着各种挑战，包括长尾和安全关键属性、复杂场景演变、恶劣环境和确定性不确定性。大模型VLM，凭借其在零样本泛化、深刻场景理解、边界案例识别和多步推理方面的卓越能力，成为解决当前挑战的有希望的解决方案。

　　崩溃报告

　　快速崩溃分析可以提高交通效率并防止进一步拥堵。M2V有条件的生成式虚拟语言模型代表一种潜在的解决方案。通过利用驾车人员记录的视频镜头以及他们的描述，该模型能够即时生成事故现场的叙述。根据事故发生时的驾驶员陈述，可以显著缩短处理意外情况的响应时间。

　　停车管理系统

　　智能停车解决方案可以利用语言引导导航和运动规划领域中展示的LLMs的规划能力,显著减少在城市地区寻找停车位的时间。通过与停车位管理系统集成，可以为车辆提供语言引导的路线指示，协助停车管理。通过与车辆端的语言引导导航系统接口，这种方法可以进一步增强，潜在地实现自动停车解决方案。

　　数据集

　　关于这方面的数据集可以参考下表：

　　讨论

　　基于前面的论述，本节深入讨论与语言模型在自动驾驶和智能交通系统中的挑战和研究空白，并概述未来研究的潜在方向。

　　自动驾驶基础模型

　　现有的基础模型包括视觉基础模型、语言基础模型和多模态基础模型，为自动驾驶基础模型（ADFM）的可行性奠定了基础。ADFM定义为在广泛多样的数据集上进行预训练的模型，在解释性、推理、预测和自省能力方面表现出色，并且在感知、理解、规划、控制和决策等各种自动驾驶任务中具有高效性。一些研究已经做出了初步尝试，但如何将现有基础模型调整为ADFM，以使自动驾驶的客观性得以保持，仍然是一个相对未开拓的领域。

　　数据可用性和格式

　　尽管已经有许多现成的大规模自动驾驶数据集可用，但它们并不适合直接用于LLMs在AD和ITS中。例如，如何生成基于AD数据集的指令调整数据集并设计指令格式以适应ADFM的适应性仍然几乎没有研究。此外，一个大规模的图像-文本交通特定对数据集也可以对AD和ITS的发展非常有帮助，特别是对于依赖于VTM预训练模型的目标检测、语义分割、语言引导导航和语言引导检索的方法。

　　安全驾车对齐

　　LLMs 可能会产生与人类价值观相冲突的有偏见、有害的内容，需要进行对齐调整。同样，当训练10个自动驾驶基础模型时，对其控制策略、决策和响应机制与安全标准进行调整是至关重要的，以确保遵守稳定、安全和健康的驾驶价值观。在LLMs对齐调整方面，已有的技术，如来自人类反馈的强化学习(RLHF) 和监督对齐调整，都值得在这个领域尝试。

　　多模态适应性

　　如前面讲的目前利用LLMs进行运动规划、控制和决策的方法常常直接将传感器数据转换为文本表达，或者通过现有的感知算法或从仿真器中直接提取。虽然这种模块化方法简化了实验，但可能导致上下文和环境信息的丢失，并且严重依赖于感知算法的性能。因此，在自动驾驶场景中，研究建立视觉语言连接的可能性，可以是通过 VTM、VTF 或两者的混合作为简单手动重新制定的替代方向，值得追求。

　　时间场景理解

　　自动驾驶和ITS中的场景理解通常需要从视频中获取时间信息，以连续感知和理解交通环境和交通参与者的动态和因果关系。仅使用图像级别的VLMs 是不够的。例如，无法单凭一张单一图像判断车祸的具体原因。如下图

　　因此，如何处理交通场景的时间传感器数据是一个仍需探索的问题。一种可能的方法是训练一个视频-语言模型,在这方面，所有现有的视频-语言适配器都有潜在的应用价值。另一种可能的路线涉及将视频数据转换为可以由图像-语言模型处理的范式，通过必要的集成时间适配器层和微调，从而增强模型对交通环境中的时空信息的理解能力。

　　计算资源和处理速度

　　实时处理和有限的计算资源对自动驾驶和智能交通系统中模型部署构成重大挑战。当前的LLM通常包含数十亿个参数，使得微调和推理都需要高度的资源消耗，无法满足实时要求。有几种现有技术可以缓解这些问题。例如，参数高效微调(PEFT)减少可训练参数的数量，同时保持令人满意的模型性能，从而最小化了微调过程中的资源消耗。此外，与通用的LLM不同，自动驾驶所需的知识通常是专业化和领域特定的，LLM所包含的大部分知识实际上对自动驾驶来说是冗余的。因此，采用知识蒸馏来训练一个更小、更适合自动驾驶的模型是可行的方法。深度学习中的其他常见模型压缩技术，如量化和修剪，也适用于这个。

　　结论

　　这个综述总结了自动驾驶和智能交通系统中视觉语言模型VLM的背景、当前进展、潜在应用和未来发展方向。它全面总结和分析了该领域中的一些重要任务、方法和数据集。根据当前的研究，本工作阐述了目前的挑战、潜在的解决方案和未来的研究方向。

　　本文内容不用于商业目的，如涉及知识产权问题，请权利人联系51Testing小编(021-64471599-8017)，我们将立即处理

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选