关闭

最新端到端自动驾驶综述,来龙去脉详尽梳理(下)

发表于:2023-8-03 09:56

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:Li Chen    来源:自动驾驶之心

  4、挑战
  输入模态
  多传感器融合
  尽管早期的工作[3,8]成功地实现了简单的自动驾驶任务,如使用单目跟踪车道,但这种单一的输入模态不足以处理复杂的场景。因此,在最近的自动驾驶汽车上引入并配备了各种传感器,如下图4所示。
  特别是,来自相机的RGB图像自然地复制了人类如何通过丰富的语义视觉信息感知世界;激光雷达或双目相机提供精确的3D空间知识。此外,来自速度计和IMU的速度和加速度等车辆状态,以及高级导航命令,是引导端到端系统的其他输入线。然而,各种传感器具有不同的视角和数据分布,它们之间的巨大差距给有效融合它们以互补自动驾驶带来了巨大挑战。多传感器融合主要在感知相关领域进行了讨论,例如,模拟检测、跟踪和语义分割,通常分为三组:早期、中期以及后融合。端到端自动驾驶算法探索类似的融合方案。早期融合意味着在将感知信息输入特征提取器之前对其进行组合。连接是融合各种输入的常见方式,如图像和深度、BEV点云和HD地图等,然后使用共享特征提取器对其进行处理。在BEV上绘制与透视图图像大小相同的激光雷达点,并将其组合为输入。为了解决视图差异,一些工作试图在2D图像上投影点云,或者通过提前预测图像中的语义标签为每个激光雷达点附加一个额外的通道。另一方面,后融合方案结合了来自多模态的多个结果。由于其较差的性能,它很少被讨论。
  与这些方法相反,中融合通过分别对输入进行编码,然后在特征级别将它们组合来实现网络内的多传感器融合。简单的串联也经常被用来融合来自不同模态的特征。最近,一些工作采用了Transformer来对特征对之间的交互进行建模。Transfuser使用两个独立的卷积编码器处理图像和激光雷达输入,将每个特征解决方案与Transformer编码器互连,从而实现四阶段特征融合。自注意力层用于传感器token、关注感兴趣区域和更新来自其他模态的信息。MMFN进一步将OpenDrive地图和雷达输入结合在Transformer的顶部。采用一级Transformer编码器架构来融合最后一个编码器块之后的各种特征。注意力机制在聚合不同传感器输入的上下文和实现更安全的端到端驾驶性能方面表现出了极大的有效性。
  不同的模态通常会增加视野和感知精度,但将它们融合以提取端到端自动驾驶的关键信息需要进一步探索。至关重要的是,在统一的空间中对这些模态进行建模,如BEV,识别与策略相关的上下文,并丢弃不相关的感知信息。此外,充分利用强大的Transformer架构仍然是一个挑战。自注意力层将所有token互连,以自由地对其感兴趣的区域进行建模,但它会产生巨大的计算成本,并且不能保证有用的信息提取。感知领域中更先进的基于Transformer的多传感器融合机制,如,有望应用于端到端驾驶任务。
  语言作为输入
  人类驾驶汽车时使用视觉感知和内在知识,如交通规则和所需路线,它们共同形成因果行为。在一些与自动驾驶相关的领域,如机器人和室内导航(也称为嵌入式人工智能),将自然语言作为细粒度指令来控制视觉运动智能体已经取得了显著进展。然而,在以下情况下,与室内机器人应用相比,室外自动驾驶任务具有不同的特点:
  (1)室外环境未知,车辆无法来回探索。(2) 很少有独特的地标,这对基础语言教学提出了巨大挑战。(3) 驾驶场景要复杂得多,有连续的行动空间和高度动态的智能体。
  安全是操纵过程中的首要任务。为了将语言知识融入驾驶行为,Talk2Car数据集为在户外环境中定位参考模拟提供了一个基准。
  Talk2Nav、TouchDown和Map2Seq数据集引入了使用谷歌街景的视觉语言导航任务。它们将世界建模为离散连接图,并需要以节点选择格式导航到目标。HAD首先采用人对车的建议,并通过基于LSTM的控制器添加了视觉基础任务。Sriram等人将自然语言指令编码为高级行为,包括左转、右转、不左转等,并在CARLA模拟器中验证其语言引导导航方法。通过关注文本操作需求来解决低级别的实时控制问题。最近,CLIP-MC和LM Nav利用CLIP,这得益于大规模的视觉语言预训练,从结构中提取语言知识,从图像中提取视觉特征。它们展示了预训练模型的优势,并为解决多模态模型的复杂导航任务提供了一个有吸引力的原型。
  尽管使用CLIP进行地标性特征提取的尝试取得了成功,但GPT-3等大语言模型或ChatGPT等指导性语言模型在自动驾驶领域的应用仍不清楚。现代LLM提供了更多处理复杂语言指令的机会。然而,考虑到它们的推理时间长且不稳定,确定道路应用的交互模态也至关重要。此外,当前的语言引导导航工作验证了它们在模拟或特定机器人实施例中的有效性,并且缺少包括有意义的语言提示的大规模基准。
  视觉抽象
  端到端自动驾驶系统大致分两个阶段完成操纵任务:将状态空间编码为潜在特征表示,然后用中间特征解码驾驶策略。在城市驾驶的情况下,与电子游戏等常见的策略学习基准相比,输入状态,即周围环境和自状态,更加多样化和高维。因此,首先使用智能体预训练任务对网络的视觉编码器进行预训练是有帮助的。这使得网络能够有效地提取有用的驾驶信息,从而促进后续的策略解码阶段,同时满足所有端到端算法的内存和模型大小限制。此外,这可以提高RL方法的采样效率。
  视觉抽象或表示学习的过程通常包含某些归纳或先验信息。为了实现比原始图像更紧凑的表示,一些方法直接利用来自预训练的分割网络的语义分割mask作为后续策略训练的输入表示。SESR通过VAE将分割掩模编码为类解纠缠表示,进一步提高了这一点。在中,预测的绿化指标,如红绿灯状态、速度、到车道中心的偏移、危险指标和到领先车辆的距离,被用作策略学习的表示。
  在观察到分割或可供性作为一种表征可能会造成人类定义的瓶颈并导致有用信息的损失后,一些人将预训练任务中的中间潜在特征作为有效表示。PIE-G已经证明ImageNet预训练模型的早期层可以作为有效的表示。有的文章使用通过包括语义分割和/或可供性性预测在内的任务预训练的潜在表示作为RL训练的输入,并实现优异的性能。在中,通过从分割的扩散边界获得的注意力图和深度图来增强VAE中的潜在特征,以突出重要区域。PPGeo在未标注的驾驶视频上以自监督的方式,通过运动预测和深度估计来学习有效的表示。TARP利用来自一系列先前任务的数据来执行不同的任务相关的预测任务,以获取有用的表示。在中,通过近似π-bisimulation度量来学习潜在表示,该度量由动力学模型的奖励和输出的差异组成。除了这些带有监督预测的预训练任务外,中还采用了基于增强视图的无监督对比学习。ACO进一步将转向角判别添加到对比学习结构中。
  由于目前的方法主要依赖于人工定义的预训练任务,因此在学习表示中不可避免地存在可能的信息瓶颈,并且可能包括与驾驶决策无关的冗余信息。因此,如何在表征学习过程中更好地提取驾驶策略的关键信息仍然是一个悬而未决的问题。
  世界模型和基于模型的RL
  除了能够更好地抽象感知表示之外,端到端模型还必须对未来做出合理的预测,以采取安全的策略。在本节中,作者主要讨论当前基于模型的策略学习工作的挑战,其中世界模型为策略模型提供了明确的未来预测。
  深度强化学习通常面临高样本复杂性的挑战,由于样本空间的大,这在自动驾驶等任务中尤为明显。基于模型的强化学习(MBRL)通过允许智能体与学习世界模型而不是实际环境相互作用,为提高样本效率提供了一个很有前途的方向。MBRL方法显式地对世界模型/环境模型进行建模,该模型由传递动力学和奖励函数组成,并且智能体可以低成本与之交互。这对自动驾驶特别有帮助,因为像CARLA这样的3D模拟器相对较慢。
  对驾驶中高度复杂和动态的环境进行建模是一项具有挑战性的任务。为了简化问题,Chen等人假设世界在轨道上,将过渡动力学分解为非反应世界模型和自车的简单运动学自车模型。他们通过利用这个因子分解的世界模型和奖励函数来丰富静态数据集的标签,以通过动态编程优化更好的标签。在文中,概率序列潜在模型被用作世界模型,以降低RL学习的样本复杂性。为了解决学习世界模型的潜在不准确度,使用多个世界模型的集合来提供不确定性评估。基于不确定性,世界模型和策略智能体之间的想象推出可能会被截断并相应调整。受成功的MBRL模型Dreamer的启发,ISO Dream考虑了环境中的非确定性因素,并将视觉动力学解耦为可控制和不可控制状态。然后,在明确考虑不可控因素(如其他主体的运动)的情况下,在解纠缠状态上训练策略。
  值得注意的是,在原始图像空间中学习世界模型并不适合自动驾驶。重要的小细节,如红绿灯,很容易在预测的图像中被遗漏。为了解决这一问题,MILE将世界模型纳入BEV语义分割空间。它通过采用Dreamer风格的世界模型学习作为辅助任务,将世界建模与模拟学习相结合。SEM2还扩展了Dreamer结构,但使用了BEV分割图,并使用RL进行训练。除了直接使用MBRL的学习世界模型外,DeRL还将model-freeactor-critic框架与世界模型相结合。具体而言,学习世界模型提供了对当前动作的自评估,并将其与评论家的状态值相结合,以更好地了解“actor”的表演。
  端到端无人驾驶的世界模型学习(MBRL)是一个新兴且有前途的方向,因为它大大降低了RL的样本复杂性,了解世界有助于驾驶。然而,由于驾驶环境高度复杂和动态,仍需要进一步研究,以确定需要建模的内容以及如何有效地建模世界。
  具有策略预测的多任务学习
  多任务学习(MTL)涉及通过单独的分支/头基于共享表示联合执行多个相关任务。MTL通过对多个任务使用单个模型,显著降低了计算成本。此外,相关领域知识在共享模型中共享,可以更好地利用任务关系来提高模型的泛化能力和鲁棒性。因此,MTL非常适合端到端自动驾驶,其中最终的策略预测需要对当前环境进行全面的了解。
  与需要密集预测的常见视觉任务相比,端到端自动驾驶预测稀疏信号。这里的稀疏监督为输入编码器提取有用信息带来了挑战决策。对于图像输入,端到端自动驾驶模型中通常采用辅助任务,如语义分割和深度估计。语义分割确保模型获得对场景的高级理解,并识别不同类别的模拟;深度估计使模型能够理解环境的3D几何形状,并更好地估计关键模拟的距离。通过执行这些任务,图像编码器可以更好地提取有用且有意义的特征表示,用于后续规划。除了透视图像的辅助任务外,3D模拟检测也适用于激光雷达编码器。随着BEV成为自动驾驶的一种自然和流行的表示方式,HD地图映射和BEV分割等任务被包括在模型中,这些模型聚集了BEV空间中的特征。此外,除了将这些视觉任务作为多任务外,还预测视觉可供性,包括红绿灯状态、到路口的距离和到对面车道的距离等。
  端到端自动驾驶的多任务学习已证明其在提高性能和提供自动驾驶模型可解释性方面的有效性。然而,辅助任务的最佳组合及其损失的适当加权以实现最佳性能仍有待探索。此外,构建具有多种类型的对齐和高质量注释的大规模数据集是一项重大挑战。
  策略蒸馏
  由于模仿学习或其主要子类别行为克隆只是模仿专家行为的监督学习,因此相应的方法通常遵循“师生”范式。教师,如CARLA提供的手工制作的专家自动驾驶仪,可以访问周围智能体和地图元素的真值状态,而学生则仅通过原始传感器输入直接受到收集的专家轨迹或控制信号的监督。这给学生模型带来了巨大的挑战,因为他们不仅必须提取感知特征,还必须从头开始学习驾驶策略。
  为了解决上述困难,一些研究建议将学习过程分为两个阶段,即训练教师网络,然后将策略蒸馏为最终的学生网络。特别是,Chen等人首先使用特权智能体来学习如何直接访问环境状态。然后,他们让感觉运动智能体(学生网络)密切模仿特权智能体,在输出阶段进行蒸馏。有了更紧凑的BEV表示作为特权智能体的输入,它提供了比原始专家更强的泛化能力和监督能力。该过程如下图5所示。
  LAV进一步使特权智能体能够预测附近所有车辆的轨迹,并将这种能力提取到使用视觉特征的学生网络中。
  除了直接监督规划结果外,一些工作还通过提取特征级别的知识来训练其预测模型。例如,FM-Net采用现成的网络,包括分割和光流模型,作为辅助教师来指导特征训练。SAM增加了教师和学生网络之间的L2特征损失,其中教师网络从基本事实语义分割图预测控制信号,并停止意图值。WoR学习了一个基于模型的行动值函数,然后用它来监督视觉运动策略。CaT最近在基于IL的特权专家训练中引入了BEV安全提示,并在BEV空间中进行提取以对齐特征。Roach提出用RL训练更强的特权专家,消除了模仿学习的上限。它包含了多个蒸馏目标,即行动分布预测、价值估计和潜在特征。通过利用强大的RL专家,TCP在CARLA排行榜上以单目作为视觉输入,实现了新的最先进技术。
  尽管在设计一个更强大的专家和将知识从教师传递给不同层次的学生方面付出了大量的努力,但师生范式仍然受到低效蒸馏的影响。如所有先前的工作所示,与特权智能体相比,视觉运动网络表现出很大的性能差距。例如,特权智能体可以访问红绿灯的真值状态,红绿灯是图像中的小模拟,对提取相应的特征提出了挑战。这可能会导致学生产生因果混淆。因此,如何从机器学习中的一般蒸馏方法中获得更多灵感,以最大限度地缩小差距,值得探索。
  可解释性
  可解释性在自动驾驶中起着至关重要的作用。它使工程师和研究人员能够更好地测试、调试和改进系统,从社会角度提供性能保证,增加用户的信任,并促进公众的接受。然而,在端到端自动驾驶模型(通常被称为黑匣子)中实现可解释性是一项挑战。给定一个经过训练的自动驾驶模型,一些事后X-AI(可解释的AI)技术可以应用于学习模型以获得显著性图。显著性地图突出显示视觉输入中的特定区域,模型主要依赖这些区域进行规划。然而,这种方法提供的信息有限,其有效性和有效性很难评估。相反,作者关注的是自动驾驶框架,这些框架在模型设计中直接增强了可解释性。作者将在下面的图6中介绍每一类可解释性。
  注意力可视化:注意力机制通常提供一定程度的可解释性。在中,学习的注意力权重被应用于从中间特征图中聚合重要特征。学习注意力权重以自适应地组合来自不同模拟区域或固定网格的ROI pooling特征。NEAT迭代聚合特征以预测注意力权重并细化聚合特征。最近,Transformer注意力机制已被广泛用于许多自动驾驶模型中。有文章中采用了Transformer注意力块,以更好地聚合来自传感器输入的信息,注意力图显示了输入中的重要区域,用于驾驶决策。在PlanT中,注意力层处理来自不同场景的特征,为相应的动作提供可解释的见解。与事后显著性方法类似,尽管习得的注意力图可以提供一些关于模型焦点的直接线索,但其忠实性和实用性仍然有限。
  可解释任务:在深度驾驶模型中,输入最初被编码为中间表示,用于后续预测。因此,许多基于IL的工作通过将潜在特征表示解码为其他有意义的信息来引入可解释性,例如语义分割、深度估计、模拟检测、可供性预测、运动预测和凝视图估计。尽管这些方法提供了可解释的信息,但大多数方法仅将这些预测视为辅助任务,对最终驾驶决策没有明确影响。有些确实将这些输出用于最终驾驶动作,但它们仅用于执行额外的安全检查。
  成本学习:如前所述,基于成本学习的方法与传统的模块化自动驾驶系统有一些相似之处,因此表现出一定程度的可解释性。NMP和DSDNet结合检测和运动预测结果构建成本体积。P3将预测的语义占用图与舒适度和交通规则约束相结合来构建代价函数。各种表示,如概率占用和时间运动场、紧急占用和freespace,用于对采样轨迹进行评分。明确包括安全、舒适、交通规则和基于感知和预测输出的路线等因素,以构建成本量。
  语言可解释性:由于可解释性的一个方面是帮助人类理解系统,因此自然语言是实现这一目的的合适选择。Kim等人生成BDD-X数据集,将驾驶视频与描述和解释配对。他们还提出了一个带有车辆控制器和解释生成器的自动驾驶模型,并强制两个模块的空间注意力权重对齐。BEEF提出了一个解释模块,该模块融合了预测的轨迹和中间感知特征,以预测决策的调整。有些文中,引入了一个名为BBD-OIA的数据集,该数据集包括驾驶决策的注释和高密度交通场景的解释。最近,ADAPT提出了一种基于Transformer的网络,以基于BBD-X数据集的驾驶视频来联合估计动作、叙述和推理。鉴于多模态和基础模型的最新进展,作者认为,将语言与自动驾驶模型进一步结合有望实现卓越的可解释性和性能,如前所述。
  不确定性建模:不确定性是解释模型输出可靠性的一种定量方法。由于规划结果并不总是准确或最优的,因此设计师和用户必须确定不确定的情况以进行改进或必要的干预。对于深度学习,有两种类型的不确定性:先验不确定性和认识不确定性。算术不确定性是任务固有的,而认识不确定性是由于数据或建模能力有限。在中,对端到端自动驾驶系统的不确定性进行了定量评估,利用模型中的某些随机正则化来执行多次前向传递作为样本来测量不确定性。然而,多个前向传递的要求在实时场景中是不可行的。RIP提出用专家似然模型的集合捕获认知不确定性,并聚合结果以执行安全规划。关于建模任意不确定性的方法,有的文中明确预测了驾驶行为/规划和不确定性(通常用方差表示)。对于预测的不确定性,从多个输出中选择不确定性最低的输出,而生成建议动作的加权组合。VTGNet没有直接使用不确定性进行规划,但证明了建模数据的不确定性可以提高总体性能。目前,预测的不确定性主要与硬编码规则结合使用。探索更好的方法来建模和利用自动驾驶的不确定性是必要的。
  因果混淆
  驾驶是一项表现出时间平稳性的任务,这使得过去的运动成为下一步行动的可靠预测因素。然而,使用多个帧训练的方法可能过于依赖于这种快捷方式,并在部署过程中遭受灾难性的失败。在一些工作中,这个问题被称为模仿问题,是因果混淆的表现,即访问更多信息会导致性能下降。LeCun等人是关于这种影响的最早报告之一。他们使用单一的输入帧来指导预测,以避免这种推论。尽管过于简单,但这仍然是当前最先进的模仿学习方法的首选解决方案[22,28,29]。不幸的是,使用单个帧的缺点是无法提取周围障碍物的速度。造成混淆的另一个原因是速度测量。下图7展示了一辆汽车在红灯前等待的例子。
  汽车的速度与刹车动作高度相关,因为汽车正在等待许多帧,其中速度为零,而刹车动作就是刹车。只有在红绿灯从红色变为绿色的单个帧处,这种相关性才会分解。当使用多个框架时,有多种方法可以解决因果混淆问题。Chauffer-Net通过在BEV中使用中间视觉抽象来解决这个问题。一个抽象是自车的过去,而其他抽象则不包含这些信息。在训练过程中,自车的过去动作以50%的概率被放弃。然而,这种方法需要显式的抽象才能有效地工作。在中,作者试图通过训练预测自车过去动作的对抗性模型,从学习的中间瓶颈表示中去除虚假的时间相关性。这导致了最小-最大优化问题,其中模仿损失最小化,对抗性损失最大化。直观地说,这训练网络从其中间层中消除其自身的过去。这种方法在MuJoCo中效果很好,但不能扩展到复杂的基于视觉的驾驶。第一个研究驾驶复杂性的是。他们建议在训练损失中增加关键帧的权重。关键帧是决策发生变化的帧(因此无法通过推断过去来预测)。为了找到关键帧,他们训练了一个策略,该策略仅以自车的过去作为输入来预测动作。与关键帧相比,PrimeNet通过使用集合提高了性能,其中单帧模型的预测作为多帧模型的额外输入。zhuang等人也做了同样的事情,但用动作残差而不是动作来监督多帧网络。OREO将图像映射到表示语义模拟的离散代码,并将随机丢弃mask应用于共享相同离散代码的单元。这有助于在Confounded Atari中,在屏幕上呈现上一个动作。在自动驾驶中,只使用激光雷达历史(单帧图像)并将点云重新排列到同一坐标系中,可以避免因果混淆的问题。这删除了关于自运动的信息,同时保留了关于其他车辆过去状态的信息。这项技术已被用于多部工作,尽管其动机并非如此。
  近二十年来,模仿学习中的因果混淆一直是一个持续的挑战。近年来,重要的研究人员已经开始研究这个问题。然而,这些研究使用了经过修改的环境来简化因果混淆问题的研究。在最先进的环境中显示性能改进仍然是一个悬而未决的问题。
  稳健性
  长尾分布
  长尾分布问题的一个重要方面是数据集不平衡,其中少数类占大多数,而许多其他类的样本数量有限,如下图8(a)段所示。
  这给模型推广到各种环境带来了巨大的挑战。各种方法通过数据处理来解决这个问题,包括过采样、欠采样和数据扩充。此外,基于加权的方法也通常用于缓解数据集不平衡问题。
  在端到端自动驾驶的背景下,长尾分布问题尤为严重。数据集不平衡在驾驶数据集中尤其成问题,因为大多数典型的驾驶都是重复的和无趣的,例如,在许多帧中沿着一条车道行驶。相反,有趣的安全关键场景很少发生,但性质多样。为了解决这个问题,一些工作依赖于手工制作的场景,以在模拟中生成更多样、更有趣的数据。LBC利用特权智能体来创建以不同导航命令为条件的假想超权限。LAV认为,尽管用于数据收集的自车很少有事故发生的情况,其他智能体人可能经历过一些安全关键或有趣的情况。因此,它包括用于训练的其他智能体的轨迹,以促进数据多样性。在中,提出了一种模拟框架,以应用重要性采样策略来加速罕见事件概率的评估。
  另一条研究路线通过虚拟攻击以数据驱动的方式生成安全关键场景。在中,贝叶斯优化被用于生成对抗性场景。学习碰撞将驾驶场景表示为构建块上的联合分布,并应用策略梯度RL方法生成风险场景。AdvSim修改智能体的轨迹,同时仍然坚持物理合理性,以导致故障,并相应地更新激光雷达。最近的工作KING通过不同的运动学模型提出了一种使用梯度的安全临界扰动的优化算法。一般来说,有效生成涵盖长尾分布的现实安全关键场景仍然是一个重大挑战。虽然许多工作侧重于模拟器中的对抗性场景,但更好地利用真实世界的数据进行关键场景挖掘和对模拟的潜在适应也是至关重要的。此外,系统、严格、全面和现实的测试框架对于评估这些长尾分布式安全关键场景下的端到端自动驾驶方法至关重要。
  协变量移位
  如前所述,行为克隆的一个重要挑战是协变量移位。专家策略和经过训练的智能体策略的状态分布不同,当经过训练的智能体部署在看不见的测试环境中时,或者当来自其他智能体的反应与训练时间不同时,会导致复合误差。这可能导致经过训练的智能体处于专家训练分布之外的状态,从而导致严重故障。如上面图8(b)所示。DAgger(数据集聚合)是克服这一问题的常用方法。DAgger是一个迭代训练过程,其中在每次迭代中推出当前训练的策略来收集新的数据,并使用专家来标注访问的状态。这通过添加如何从不完美策略可能访问的次优状态中恢复的示例丰富了训练数据集。然后在增强的数据集上训练策略,并重复该过程。然而,DAgger的一个缺点是需要一个可用的专家来在线查询。
  对于端到端自动驾驶,中采用了DAgger,并配备了基于MPC的专家。为了降低持续查询专家的成本并提高安全性,SafeDAgger通过学习估计当前策略和专家策略之间偏差的安全策略来扩展原始DAgger算法。只有当偏差很大时才会询问专家,而在那些危险的情况下,专家会接管。MetaDAgger将元学习与DAgger相结合,以聚合来自多个环境的数据。LBC采用DAgger并对数据进行重新采样,以便更频繁地对具有较高损耗的样本进行采样。在DARB中,对DAgger进行了一些修改,以适应驾驶任务。为了更好地利用故障或安全相关样本,它提出了几种机制,包括基于任务的、基于策略的以及基于策略和专家的机制,来对这些关键状态进行采样。它还使用固定大小的重放缓冲区进行迭代训练,以增加多样性并减少数据集偏差。
  域自适应
  领域自适应(DA)是一种迁移学习,其中目标任务与源任务相同,但域不同。在这里,作者讨论的场景是,标签可用于源域,而目标域没有标签或标签数量有限。如前面图8(c)所示,模拟驾驶任务的领域自适应包括几种情况:
  模拟到真实:用于训练的模拟器和用于部署的真实世界之间的巨大差距。
  地理到地理:不同的地理位置,不同的环境外观。
  天气对天气:由雨、雾和雪等天气条件引起的传感器输入变化。
  昼夜:传感器输入的照明变化。
  传感器与传感器之间:传感器特性的可能差异,例如分辨率和相对位置
  传感器与传感器之间:传感器特性的可能差异,例如分辨率和相对位置。请注意,上述情况经常重叠。VISRI使用翻译网络将模拟图像映射到真实图像,分割图作为中间表示。基于翻译的模拟图像来训练RL智能体。在中,使用图像翻译器和鉴别器实现了域不变特征学习,以将来自两个域的图像映射到共同的潜在空间。类似地,LUSR采用循环一致VAE将图像投影到由领域特定部分和领域一般部分组成的潜在表示中,在此基础上学习策略。UAIL通过将不同天气条件下的图像分解为可区分的风格空间和具有GAN的共享内容空间,实现天气对天气的适应。在SESR中,从语义分割掩码中提取类解纠缠编码,以减少模拟器中的图像与现实世界之间的域间隙。领域随机化也是模拟器中RL策略学习的模拟到真实自适应的一种简单有效的技术,它进一步适用于端到端的自动驾驶系统。它是通过对模拟器的渲染和物理设置进行随机化来实现的,以覆盖训练过程中真实世界的可变性,并获得具有良好泛化能力的训练策略。目前,通过源target图像映射或域不变特征学习进行模拟到真实的自适应是端到端自动驾驶的重点。其他领域适应情况,如地理到地理或天气到天气的适应,是通过训练数据集的多样性和规模来处理的。由于激光雷达已成为一种流行的驾驶输入模态,鉴于目前的工作主要集中在基于图像的自适应,还必须设计适合激光雷达特征的特定自适应技术。此外,由于当前的方法只关注图像中的视觉差距,因此应注意交通智能体的行为以及模拟器与现实世界之间的交通规则差距。通过NeRF等技术将真实世界的数据纳入模拟是另一个有前景的方向。
  5、未来趋势
  考虑到所讨论的挑战和机遇,作者列出了未来研究的一些关键方向,这些方向可能会在该领域产生更广泛的影响。
  零样本和少样本学习
  自动驾驶模型最终不可避免地会遇到超出训练数据分布范围的真实场景。这就提出了一个问题,即作者是否能够成功地将模型调整到一个看不见的目标领域,在这个领域中,有限或没有标注的数据可用。实现这一目标的关键步骤是将这项任务形式化为端到端驾驶领域,并将零样本/少样本学习文献中的相关技术纳入其中。
  模块化端对端规划
  模块化端到端规划框架优化了多个模块,同时对下游规划任务进行了优先排序,这具有可解释性的优势,如第前所示。这在最近的文献中得到了提倡,某些行业解决方案(特斯拉、Wayve等)也涉及类似的想法。在设计这些可区分的感知模块时,会出现一些关于损失函数选择的问题,例如3D边界框用于目标检测的必要性,占用表示是否足以检测一般障碍物,或者选择BEV分割而不是车道拓扑用于静态场景感知的优势。
  数据引擎
  大规模、高质量的数据对自动驾驶的重要性再怎么强调也不为过。建立一个带有自动标注pipeline的数据引擎可以极大地促进数据和模型的迭代开发。自动驾驶的数据引擎,尤其是模块化的端到端规划系统,需要在大型感知模块的帮助下,以自动的方式简化注释高质量感知标签的过程。它还应支持挖掘困难/角落案例、场景生成和编辑,以简化前面中讨论的数据驱动评估,并促进数据的多样性和模型的泛化能力。数据引擎将使自动驾驶模型能够做出一致的改进。
  基础模型
  语言和视觉方面的大型基础模型的最新进展对社会的各个方面产生了重大影响。大规模数据和模型能力的利用释放了人工智能在高级推理任务中的巨大潜力。微调或即时学习、自监督重建形式的优化或对比对以及数据pipeline等的范式都适用于端到端的自动驾驶领域。然而,作者认为,将LLM直接用于自动驾驶似乎与这两个目标的不同目标不一致。自主主体的输出通常需要稳定和准确的测量,而语言模型中的生成序列输出旨在表现得像人,无论其准确性如何。开发大型自动驾驶模型的一个可行解决方案是训练一个视频预测器,该预测器可以预测2D或3D环境的长期预测。为了在规划等下游任务中表现出色,要为大型模型优化的目标需要足够复杂,超出框架级别的感知。
  V2X
  遮挡和超出感知范围的障碍物是现代计算机视觉技术的两个基本挑战,当人类驾驶员需要对穿越目标做出快速反应时,这甚至会给他们带来巨大困难。V2V、V2I和V2X系统提供了很有前途的解决方案来解决这一关键问题,其中来自不同观点的信息补充了自盲点。见证了多智能体场景下信息传输机制的进步,这些系统可以提供一种实现高级决策智能的解决方案。
  6、结论
  在这项调研中,首先概述了端到端自动驾驶的基本方法,并总结了仿真和基准测试的各个方面。然后深入分析了迄今为止广泛的文献,并强调了一系列重大挑战和有希望的解决方案。最后讨论了未来如何采用快速发展的基础模型和数据引擎。端到端自动驾驶同时面临着巨大的机遇和挑战,最终目标是打造多面手。在这个新兴技术的时代,希望这项调研能作为一个起点,为这一领域提供新的线索。
  你是否对车载测试感兴趣,想转行车载测试却无从下手呢?现在私聊恬恬圈/甜甜圈,或识别下方二维码,添加天天圈,了解车载测试入门吧↓↓↓
  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号