视觉大语言模型在自动驾驶和智能交通中的最新应用（上）

您的位置：
门户
>> 文章精选
>> 业务知识
>> 车载测试
>> 查看资讯

视觉大语言模型在自动驾驶和智能交通中的最新应用（上）

发表于：2023-11-29 09:17

作者：红豆沙冰来源：自动驾驶之心

车载测试

　　写在前面&一点思考

　　当前VLM, LLM十分的热门, 尤其是在自动驾驶领域, 自动驾驶的输入本身就是多模态的, 这里面最重要的就是图像和语言信息, 所以如何将图像和文本信息综合利用, 以及如何充分利用LLM是当前急需要探索的, 目前其实已有部分工作是关于VLM及LLM在自动驾驶中应用的, 比如为了利用文本信息，为了出可解释性, 但是其实VLM与LLM在自动驾驶中的应用远不止这些, 可以结合的地方有很多, 比如感知, 决策，规划, 可以分别从这些方向入手探讨结合的方向。另外不光是自动驾驶领域，应该说整个cv领域在接下来都会有不少这方面的工作, 比如目标检测，分割, 跟踪, 分类, 行人ReID, 车辆ReID等，都可以借助VLM与LLM, 重新思考新的驾构, 使得性能再上一个新的台阶。

　　这项工作的意义

　　视觉语言模型（VLM）在自动驾驶（AD）和智能交通系统（ITS）领域的应用引起了广泛关注，这是因为它们的出色性能和利用大型语言模型（LLM）的能力。通过整合语言数据，车辆和交通系统能够深入理解现实环境，提高驾驶安全性和效率。在这项工作中，我们对这个领域的语言模型的进展进行了全面的调研，包括当前的模型和数据集。此外，还探讨了潜在的应用和新兴的研究方向。最后，全面讨论了挑战和研究空白。

　　有哪些贡献？

　　智能移动在现代文明中至关重要，推动经济增长，支持城市发展，加强社会联系。近年来，深度学习和计算能力的快速发展深刻地影响了交通运输，提高了其效率和智能化。智能移动的两个新兴领域是自动驾驶（AD）和智能交通系统（ITS）。

　　自动驾驶力图使车辆能够感知环境并智能驾驶。当前的自动驾驶技术，尤其是与感知和预测相关的技术，极大地受益于计算机视觉的进步。例如，感知模块通常使用卷积神经网络（CNNs）或Transformer ，从相机或激光雷达等传感器中处理数据，准确识别和定位周围的实体。然而，尽管取得了这些技术上的突破，当前的计算机视觉解决方案仍然在复杂和快速变化的环境中面临困难。它们经常无法捕捉复杂细节或理解上下文，从而导致潜在的安全问题，并限制了向更先进的自动驾驶的发展。

　　另一方面, 智能交通系统旨在提高交通安全性和流动性, 但尽管多年来它们的效率和可靠性有所提高，但挑战仍然存在。例如，实时交通流量预测很容易受到天气、碰撞事件或道路施工等各种环境因素的影响。

　　LLM 和VLM 的出现为当前自动驾驶和智能交通系统固有的局限性提供了潜在解决方案。这些新颖的技术综合了语言和视觉数据，为车辆和系统深入理解周围环境的未来带来了希望。这标志着智能、高效和可解释的交通运输的新时代。除了增强AD或ITS中的传统任务，如目标检测或交通流量预测，新兴领域还包括零样本感知和事故分析，如下图所示：

　　考虑到将语言模型应用于自动驾驶和智能系统的研究激增，系统和全面的调研对于研究界非常重要。然而，现有的调研要重点在LLMs、VLMs、AD、TS各自领域上比较分散，没有一个综述系统地探讨VLMs在AD和ITS中的应用。

　　为此，我们对自动驾驶和智能交通系统中视觉语言模型的现有算法进行了综述，突出了研究界的最新技术趋势。

　　整体框架如下：

　　该工作的主要贡献可以总结如下：

　　首次提出了关于视觉语言模型在自动驾驶和智能交通系统中应用的全面调研。

　　系统地总结和分析了现有的工作和数据集。

　　探讨了VLMs在自动驾驶和智能交通系统中的潜在应用和技术进展。

　　对该领域中的挑战和研究空白进行了深入讨论。

　　领域背景介绍

　　这一节主要是对自动驾驶, 智能交通系统以及大语言模型，视觉语言模型的大致介绍.

　　自动驾驶

　　自动驾驶目标是开发出能够在没有人类干预的情况下能自动导航和完成控制的车辆，以减少事故并提高交通效率。根据美国汽车工程师学会定义的驾驶自动化等级可以从0级（无自动化）到5级（完全自动化）。随着自主性的增加，人类干预减少，而车辆对环境的理解要求增加。目前，大多数商用车辆处于2级或3级，提供部分自动化但仍需要驾驶员监督。现有的自动驾驶解决方案可以大致分为经典模块化范式和端到端方法。然而，这些方案都面临着诸如可解释性、泛化性、因果混淆、鲁棒性等严重挑战。研究人员尝试使用各种方法来解决这些问题，但构建一个安全、稳定和可解释的自动驾驶系统仍然是一个未解决的课题。

　　智能交通系统

　　智能交通系统（ITS）利用先进技术来通过优化更广泛的交通环境来提高交通效率和安全性。通过整合道路传感器和道路用户等各种来源的实时数据，ITS包括一系列广泛的服务和应用，从自适应交通信号控制到实时交通监测、事故探测和预测、交通流预测以及协同车辆基础设施系统。尽管ITS在感知、通信和机器学习技术方面的发展增强了其应用范围，但仍然需要解决一些重要挑战。驾驶是一项社交活动，通常需要与其他交通参与者频繁交互，但当前系统仍然缺乏人类所依赖的智能和常识。

　　大语言模型

　　大型语言模型（LLMs）通常指具有庞大参数量的语言模型，往往达到十亿或更多。LLMs最显著的特点是展示了新兴的能力，如在众多下游任务中具备少样本或零样本迁移学习的能力，强大的多步推理能力和能够遵循指令的能力，这些通常在较小模型中不存在。ChatGPT，特别是GPT-3.5，标志着LLMs发展的一个里程碑。自发布以来，GPT-3.5一直因其卓越性能而受到关注。越来越多的研究人员开始探索和利用LLMs强大的语言理解、解释、分析和推理能力来解决以前难以甚至无法解决的问题。

　　视觉语言模型

　　视觉-语言模型（VLM）将自然语言处理（NLP）和计算机视觉（CV）的功能结合起来，打破了文本和视觉之间的边界。

　　随着LLMs的兴起，越来越多的注意力也开始放在探索如何将视觉模块有效地整合到LLMs中以执行多模态任务上。

　　在AD中，主流的视觉-语言模型可以根据输入和输出的模态类型广泛分为Multimodal-to-Text (M2T) 、Multimodal-to-Vision (M2V) 和Vision-to-Text (V2T) 。如图所示：

　　M2T通常将图像文本或视频文本作为输入，并生成文本作为输出；相应地，M2V接受图像文本作为输入，并生成图像或视频作为输出，而V2T则将图像或视频作为输入，并生成文本作为输出。

　　如下图所示：

　　根据模态之间的信息连接方法，AD中使用的VLMs可以分为Vision-Text-Fusion (VTF)和Vision-Text-Matching (VTM) 。VTF使用各种融合方法有效地整合了视觉嵌入和语言嵌入，并共同优化了用于目标任务的特征表示。相反，VTM，包括图像文本匹配和视频文本匹配，通过迫使视觉文本对在语义上靠近，并且不配对实例相互远离，学习了一个联合表示空间，实现了跨模态的语义对齐，及跨模态的语义传播。CLIP 是VLMs中的一个重要里程碑，通过对大量的图像文本对进行对比学习，捕捉与语言相关的图像特征表示，并实现了zeor-shot样本迁移能力。

　　视觉语言模型VLMs在自动驾驶中的应用

　　VLMs在自动驾驶中有越来越多的尝试。在本节中，介绍了在AD中存在的VLM工作，包括感知与理解，导航与规划，决策与控制，端到端AD，和数据生成。总结的当前方法如表所示

　　感知和理解

　　在自动驾驶感知中，尤其是那些在大规模图像-文本匹配数据集上进行预训练的VLM模型，已经推动了许多新的研究。这些研究利用预训练VLMs的丰富先验知识来提升感知和理解的性能，并进一步引入了许多新的任务。

　　行人检测

　　行人检测中固有的挑战包括类似人体的物体混淆和边际案例样本不足。为此，VLPD 首次提出了一种视觉语言额外注释的方法，以增强模型区分混淆的类似人体物体的能力，主要方法是利用CLIP获取逐像素明确的语义上下文，并通过对比学习将行人特征与其他类别的特征进行距离计算，提高对更广泛案例的检测能力。UMPD也利用了CLIP中的zeros-shot语义类，并提出了一种完全无监督的多视角行人检测方法，无需手工标注。

　　对象引用

　　与传统的感知任务相比，如目标检测、跟踪和语义分割，引入语言使模型能够获得更细粒度和全面无约束的理解周围环境的能力。

　　对象引用(OR)是该领域的一个典型任务, 目的是根据语言的query用框或者Mask把对应的物体给显示出来.

　　MSSG 在自动驾驶场景中提出了一种多模态3D单一物体指代（SOR）任务。它通过在鸟瞰视图（BEV）下融合图像、LiDAR和语言特征来训练多模态单次定位模型，并从检测器直接预测目标区域，无需后处理。TransRMOT 将SOR任务扩展到多物体指代和跟踪（MOR-T），并基于KITTI数据集构建了Refer-KITTI baselin。给定一个语言query，TransRMOT可以在视频中检测和跟踪任意数量的指代对象。类似地，PromptTrack 提出了nuScenes数据集的语言提示集合，并构建了NuPrompt baseline。与ReferKITTI相比，NuPrompt继承了nuScenes的多视角属性，使其适用于多视角MOR-T任务。

　　开放词汇的三维物体检测和语义分割

　　由于VLMs的zero-shot以及跨模态的能力, 目标检测和语义分割都具备在未知样本上执行开放词汇检测和分割的能力。UP-VL框架首先提出了一种无监督的多模态自动标记流程，用于生成点级特征和对象级边界框以及跟踪信息，以进行开放词汇类别无关的3D检测器监督，并在推断时进一步用于提供3D边界框。结合通过相似性匹配分配的语义标签，UP-VL框架实现了AD场景中静止和移动交通参与者的无监督开放词汇3D检测和跟踪（OV-3DOD-T）。OpenScene 利用2D-3D投影对应来强制使3D点云嵌入和相应的融合2D图像特征保持一致。基本上，它将3D点云表示与CLIP的图像-文本表示对齐，以获取密集3D点特征的零样本理解能力.OpenScene主要在室内场景中进行评估，但也在Nuscenes上展现出令人满意的开放词汇三维语义分割（OV-3DSS）能力。CLIP2Scene探索了如何利用CLIP来辅助自主驾驶中的3D场景理解。通过在像素文本映射和像素点映射之间寻找模态之间的关联，CLIP2Scene分别构建了点文本对和像素点文本对进行对比学习训练。客观性也是为了确保3D点特征及其相应的语言实现语义一致性，从而促进OV-3DSS。实验证明，使用CLIP2Scene作为预训练远远优于其他自监督方法。

　　本文内容不用于商业目的，如涉及知识产权问题，请权利人联系51Testing小编(021-64471599-8017)，我们将立即处理

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选