文章标题:Foundation Models in Autonomous Driving: A Survey on Scenario Generation and Scenario Analysis
(翻译)自动驾驶中的基础模型:场景生成与场景分析综述
文章发表于预印本:Foundation Models in Autonomous Driving: A Survey on Scenario Generation and Scenario Analysis
续:文献阅读篇#10:自动驾驶中的基础模型:场景生成与场景分析综述(1)-CSDN博客 & 文献阅读篇#11:自动驾驶中的基础模型:场景生成与场景分析综述(2)-CSDN博客 & 文献阅读篇#12:自动驾驶中的基础模型:场景生成与场景分析综述(3)-CSDN博客
五、多模态大语言模型 (MLLMs)
本节从多模态大模型(MLLM)的发展开始,重点介绍其架构演变和适应技术,如模态桥接和指令调优。随后,讨论了从多模态输入生成场景以及场景分析任务,包括视觉问答(VQA)、场景理解和自动驾驶环境中的风险评估。(该章节的总结)
A. 多模态大型语言模型的发展
MLLMs 通过引入更多的感知编码器扩展了预训练的 LLMs,使系统能够处理更丰富的传感器输入。早期模型如 BLIP-2 [113] 和 Video-LLaMA [164](在附录 A 部分讨论)使用冻结的视觉骨干网络,并通过诸如 Q-Former 的适配器连接到 LLMs。近期的 MLLMs 转向更紧密的视觉–语言整合,将 LLM 作为核心推理引擎。MiniGPT-4 [165] 和 LLaVA [29] 通过轻量投影器将视觉编码器(如 CLIP)对齐到 LLaMA [99],并应用指令调优。然而,它们主要处理自然图像,例如典型的摄影场景,并且缺乏对传感器融合或时空推理的支持。(是何异于VLM???)
相比之下,像 GPT-4V [166] 和 GPT-4o 这样的模型集成了专有的视觉编码器,并在图像-文本-音频数据上进行训练。虽然它们能够处理图像和视频,但仍然在自然图像范式下工作,未接触到诸如 LiDAR 传感器数据、BEV 地图或驾驶日志等特定领域的输入。像 Google Gemini [167] 和 Qwen-VL [168] 这样的模型通过更强的视觉-语言整合扩展了多模态推理能力,支持开放式的视频和图表理解。虽然这些模型在通用视觉-语言任务中表现出色,但在自动驾驶领域仍显不足,因为自动驾驶需要对结构化输入(如时间对象轨迹、BEV 布局和考虑交互的运动模式)进行推理。(比VLM更进了一步)
为了应对自动驾驶的独特需求,最近的多模态大语言模型(MLLM)架构已经开始引入结构化的、特定领域的模态,如多视角视频、激光雷达点云和俯视图(BEV)布局。这些新增模态使模型能够进行空间和时间的定位,从而让大语言模型能够更有效地推理复杂的驾驶场景和多智能体动态 [169]。(比前面又进了一步)
在构建于VLM技术的基础上,MLLMs被改造以支持对自动驾驶至关重要的更广泛的模态,例如视频、LiDAR点云、BEV地图和高清(HD)语义特征。如图6所示,这些系统通常由专门的模态编码器(如BEVFormer [170]、CLIP-ViT [171]、VoxelNet [172])、用于对齐多模态特征的投影模块(如MLPs、Q-Former、交叉注意力)以及针对任务的训练策略组成。MLLMs通常会保持感知和语言骨干网络冻结,适配主要集中在轻量级桥接和下游驾驶相关任务的指令微调。主要的适配策略将在下文讨论。(提出了模态编码器的重要性)

图6. 自动驾驶中多模态大语言模型(MLLMs)适配技术概览。编码器从特定模态的输入中提取特征。投影器是可训练模块,将特征映射到大语言模型的嵌入空间,以实现跨模态对齐。大语言模型作为推理核心,可以根据可用资源和任务需求选择冻结或可训练,使用微调技术进行优化。(图注)
模态对齐模块:
这些模块作为非文本模态与大型语言模型(LLM)标记空间之间的桥梁。主要的模态对齐模块包括:
(1) 线性投影器:一个单一线性(即完全连接)的神经层,用于将特定模态特征投射到LLM的嵌入空间。它提供了轻量级映射策略,常用于早期VLM或与预训练编码器结合使用[173],[174]。(2) MLP 投影:将视觉或空间编码器(如 ViT、BEVFormer)的高维特征投射到 VOLUME、OJ Logo LLM 的令牌空间。用于BLIP-2 [113]等模型和以驾驶为中心的适配器如P-Adapter [175],这些适配器将BEV或LiDAR功能对齐以实现基于语言的推理。(3)时空(ST)适配器:轻量级时间适配器模块用于扩展基于图像的多层次多层语言模型(MLLM)以处理顺序视频输入 [170], [175]。它实现了时空建模,而无需修改核心的LLM权重。(4) 交叉注意力:利用可学习的查询通过图像或点云标记进行关注,实现多模态融合,适用于空间/时间基础化、语义对齐和指令跟踪等任务 [176], [177]。(5) Q-Former:基于变换器的查询模块,利用交叉注意力从多模态输入中提炼出任务相关的嵌入。这些模块应用于BLIP-2 [113]、InternDrive [178]和NuInstruct [170],用于跨视频、激光雷达和BEV输入的结构化聚变。(6) 聚变变压器:专门设计用于整合多流特性的注意力块,如BEV地图、多视图视频或激光雷达点云。像BEV-Injection [170]这样的模块通过对齐和注入多模态特征(例如图像或激光雷达)到统一的BEV表示中,作为融合变换器。这些通常用于以驾驶为中心的MLLMs。(7) 结构感知编码器:一个模块,将结构化感知输入(如三维边界框[172])、场景图或运动轨迹转换为适合基于语言推理的令牌嵌入。
(文章总结了七种多模态对齐的模块和方法)
多模态微调:(和VLM部分的一样)
一旦实现了模态对齐,就可以使用成对的指令数据(如 VQA)训练多模态大模型(MLLM)以遵循特定任务的提示。这个阶段教会模型在多模态环境中进行推理并生成有依据的输出。与视觉语言模型(VLM)类似,通常采用两种主要策略来实现这种适应:
(1) PEFT:PEFT 策略通过只更新模型的一小部分参数来适应多模态大语言模型(MLLM),通常保持 LLM 冻结。虽然经典的 PEFT 方法如适配器层、LoRA 和提示调优(如下所述)在 LLM 内部操作,但最近在自动驾驶领域的研究往往将 PEFT 应用于模态对齐模块 [170]。例如,像 ST-Adapters 和 Q-Formers 这样的组件被训练用于将视觉或空间输入桥接到 LLM,从而在不修改核心语言模型的情况下实现任务适应。
Adapter layers:轻量级可训练模块,插入在大型语言模型(LLM)的各层之间,通常使用下投影和上投影结构。它们用于 LLaMA Adapter V2 [179] 和 InternDrive [178]。
LoRA:对注意力和前馈模块应用低秩更新。常用于驱动模型,如 DriveGPT4 [173]。
PEFT-模态对齐 (MA):仅微调 MA 模块(例如 Q-Former、ST-Adapter),同时保持大语言模型(LLM)的权重冻结。
(2) FFT:全量微调会更新所有模型参数,包括视觉编码器、空间编码器和大语言模型(LLM)。虽然这种方法通常能够实现最高的特定任务性能,但计算成本很高。为了降低计算成本,一些研究将全量微调应用于较小的模型,例如使用 Qwen2-0.5B [180]。
B. 基于 MLLM 的场景生成
多模态大型语言模型(MLLMs)可以联合处理来自车辆传感器或人类来源的多样化视觉输入,从而实现对复杂驾驶环境的全面理解。它们整合多种模态的能力也有助于生成更真实、具有情境感知的场景。以下,我们将 MLLMs 的使用分为两类,总结如表 6 所示。(不多)

安全关键情景生成:
多模态大语言模型(MLLMs)通过利用视频、GPS、事故报告以及潜在的LiDAR点云等多样化模态,实现更丰富的场景生成,从而能够进行超越基于图像的大语言视觉模型(VLMs)限制的风险感知合成。(介绍)
AutoScenario [181] 提出了一种生成真实角落案例的流程,使用来自 NHTSA 的多模态事故数据,包括文本、图像、视频和半结构化报告。他们使用带有 CoT 的 GPT-4o 生成结构化场景描述,然后用于在 SUMO 中生成道路网络和在 CARLA 中生成代理行为。他们的场景优化通过 GPS 轨迹和模拟场景与真实场景的逐帧相似性进行指导,以确保与原始事故事件的良好匹配。一个有前景的未来方向是引入空间模态,例如 LiDAR 点云或 BEV 地图,以实现更精确的场景几何和代理定位,从而增强现实感,超越仅凭二维视频和深度感测所能提供的效果。(几个例子)
ADAS 测试场景生成:
为高级驾驶辅助系统(ADAS)生成测试场景的目的是在典型但多样的条件下验证自动驾驶功能。
LEADE [183] 从 HDD 数据集 [182] 的真实交通视频中生成 ADAS 测试场景。关键帧在多模态 ICL 和 GPT-4V 的 CoT 提示中被使用,以创建抽象场景,然后将其转换为可在 LGSVL 仿真器 [93] 中执行的程序。Apollo ADAS 堆栈 [184] 运行自车,通过双层搜索识别语义等价的场景,从而揭示 Apollo 与人类驾驶员的行为差异。未来的工作可以使场景生成与 ADAS 测试标准保持一致,从而实现符合规范的场景合成。引入交通规则和结构化先验也将改善可控性和测试覆盖范围。(几个例子)
C. 基于 MLLM 的情景分析
本节讨论了使用多模态大语言模型(MLLMs)进行自动驾驶(AD)场景分析的论文。我们将现有工作归类为三个主要任务,如表7所示。

1 视频:FPV=第一人称视角;BEV=鸟瞰视角; 2 角色:Exec.=执行;Aug.=增强;Gen.=生成;Under.=理解;Capt.=字幕生成;Eval.=评估;Extract.=提取; 3 技术:只关注用于多模态大语言模型(MLLMs)的技术。Projector=线性投影器;MLP=多层感知机投影;QueryTrans=查询变换器;FusionTrans=融合变换器;PEFT-Adapter=适配器层;Fft=全量微调;PEFT-MA=只训练模态对齐模块且大语言模型冻结;Encoder=结构感知编码器;CP=上下文提示;ICL=上下文学习;CoT=链式思维提示; 4 关注:STReasoning=时空推理。
视觉问答(VQA):
与基于 VQA 的 VLM 情景分析相比,MLLM 具备处理多模态传感器数据的扩展能力,如视频、LiDAR 点云和高清地图[197],除了图像和文本。根据任务和数据模态,现有的 VQA 数据集可分为四类:(怎么莫名其妙开始讲数据集了???难道这是唯一区别VLM的地方了吗??)
(I) 通用自动驾驶任务——感知、推理与控制:多个数据集针对核心自动驾驶任务,包括视觉感知、推理和决策。DriveGPT4 [173] 推出了首个针对驾驶的视频质量保证风格指令跟随数据集,使用 GPT-4 生成,输入结构化,包括物体检测边界框、说明文字和控制信号。它通过微调结合 CLIP 和 LLaMA2 的 MLLM,并搭配 LoRA 适配器,生成文本解释和控制输出。同时,混合微调策略将通用视觉指令数据与驾驶特定样本合并,以提升推理和性能。VLAAD [174] 引入了一款多模态自动驾驶助手,基于基于 BDD-X 和 HDD 视频的指令跟踪数据集训练,QA 对通过 GPT-4 增强。该模型基于 Video-LLaMA 构建,结合了基于 BLIP-2 的视觉编码器、用于时间建模的 Video Q-Former 以及冻结的 LLaMA-2-7B 语言模型。PEFT-MA仅应用于Q-Forform和投影层,使模型能够高效执行诸如VQA、自由形式QA、自我-意图预测和场景层推理等任务。LingoQA [129] 提供了一个涵盖感知、推理和行动的自动驾驶 VQA 数据集。它包含一个用 GPT-3.5 注释的动作集和一个由 GPT-4 使用 CoT 生成的场景集。基线模型使用CLIP和Q-Former处理视频帧,并配备线性投影仪将特征与Vicuna-1.5-7B的令牌空间对齐。在微调过程中,PEFT-MA应用到Q-Former和投影仪上,LLM保持冻结状态。评估使用新颖的Lingo-Judge分类器进行,该分类器通过LoRA训练。(包括视觉感知、推理和决策的VQA数据集)
(II) 时空推理:这一类的数据集侧重于对驾驶场景中的智能体运动、时间依赖性和事件语义进行推理。TUMTraffic-VideoQA [180] 提出了一个多项选择的视频问答数据集,针对路边交通场景中的时空推理,重点关注运动、对象交互和事件语义。视觉元数据使用标准检测器进行提取,并由现成的视觉语言模型(VLMs)生成描述,同时 GPT-4o-mini 通过模板增强提示生成问答对。基线模型(TUMTraffic-Qwen)使用 SigLIP 进行视觉编码,通过 MLP 投影器实现模态对齐,并使用 Qwen2(0.5B/7B)作为大语言模型(LLM),该模型经过完全微调以进行指令式问答。NuPlanQA [169] 提出了一个基于 nuPlan 的视频问答数据集,使用 GPT-4o 生成自由形式的问答对用于训练,并生成多项选择问答用于评估。为了利用这些数据,作者提出了 BEV-LLM,一种多模态大模型(MLLM),通过 BEV 编码器、BEV 融合模块和 MLP 投影器整合多视角图像和 BEV 特征。该模型使用 LLaMA-3.2-Vision 作为冻结骨干,仅对 BEV 融合模块和投影层进行训练,遵循 PEFT-MA 策略。(关注智能体运动、时间依赖性)
(III) 风险感知推理:为了解决安全关键的理解问题,一些数据集专注于风险识别、意图估计和与规划相关的查询。NuInstruct [170] 引入了多视角视频问答数据集,涵盖感知、预测、风险和规划任务。问答通过结构化的 SQL 流水线生成。作者提出了 BEV-InMLLM,通过使用 ST-Adapters 和 BEV-Injection 模块,或者通过融合多视角视频空间特征的 Fusion Transformer 来扩展 MLLMs(如 Video-LLaMA),从而在整体自动驾驶任务上取得了性能提升。HiLM-D [175] 引入了 DRAMA-ROLISP,这是一个用于风险评估的风险感知 VQA 数据集,并通过 GPT-4 进行增强。模型利用 MiniGPT-4 进行微调,结合用于视频输入的 ViT 和 ST-Adapter、基于 ResNet 的编码器以及用于空间融合的 P-Adapter。Query-Aware Detector 整合输出,用于风险对象定位和意图推理。LLM 本身保持冻结,仅微调适配器、融合层和投影层。DVBench [187] 提出了一套全面的视频基于 VQA 的安全关键自动驾驶基准,建立在 SHRP2 [186] 行车记录仪数据之上。多选问答对通过 GPT-4o 和 Qwen2.5-72B 生成和优化,涵盖感知和推理任务,并分类为 11 个子类别。该基准使用自定义指标评估 14 个 MLLMs,该指标通过旋转答案位置来评估鲁棒性。作者还比较了 Qwen2-VL-2B/7B 在 DVBench 数据集上全量微调与否的性能差异。(专注于风险识别、意图估计)
(IV) 基于 LiDAR 的多模态扩展(有/无高清地图):为了超越 RGB 数据的推理能力,一些数据集引入了 3D 点云或高清地图。LiDAR-LLM [172] 首先处理基于 LiDAR 点云的 3D 描述、定位和视觉问答任务。它通过体素编码器提取 BEV 特征,使用具有可学习查询的视角感知 Transformer 对其进行嵌入,该 Transformer 作为先验的分词器,然后通过 MLP 将其投射到语言空间。在 LLM 内部,对适配层进行微调以支持 3D 场景理解。MAPLM [146] 引入了大规模多模态基准和 VQA 数据集,主要关注自动驾驶中的感知和高清地图理解。它包含全景 2D 图像、来自 LiDAR 点云的 BEV 投影,以及从高清地图提取的文本描述。基线模型使用预训练的 CLIP 编码器和轻量级投影适配层来对齐视觉特征,并将其映射到 LLM 的嵌入空间。通过在 Vicuna 或 LLaMA-2 上使用 LoRA 进行指令微调,使模型能够在多模态下执行有效的场景级推理。V2V-LLM [188] 进一步将基于 LiDAR 的多模态推理扩展到协作驾驶,通过融合来自多辆联网车辆的点云特征。它基于数据集 V2X-Real [198],[199] 构建了车辆间问答数据集,用于感知和规划。该模型通过将 RGB 编码器替换为 LiDAR 检测器来改造 LLaVA,并通过 MLP 投射器和微调的 LoRA 层对场景级和对象级特征进行对齐。(3D 点云或高清地图)
在自动驾驶中,VQA 的一个关键下一步是评估模型在分布外条件下的鲁棒性。目前的数据集大多涵盖常见的驾驶场景和结构良好的问题,导致模型在罕见事件、不熟悉的物体或夜间、雪天或施工区等挑战性条件下几乎没有经过测试。开发明确包含这些边缘情况的基准,并评估模型在这些情况下的泛化能力,对于在安全关键的真实环境中部署 VQA 系统至关重要。(存在的一些问题)
场景/情境理解:
本小节区分了场景理解,它侧重于静态的、基于图像的感知,以及情境理解,它捕捉时间动态、主体交互和不断发展的因果事件。(场景情景主要是静态和动态的区别)
(I) 场景理解:InternDrive [178] 和 Jain 等人 [190] 侧重于使用基于图像的输入进行静态场景理解。InternDrive 提出了一种驾驶场景理解框架,涵盖感知、预测和推理,使用多模态大语言模型(MLLM)。它利用 GPT-4o 从 nuScenes 生成问答对,然后进行人工校正,并通过 LoRA 在这些标注上微调 MLLM InternVL-1.5。生成的模型通过视觉指令调优,从第一人称视角(FPV)图像分析驾驶场景。Jain 等人 [190] 使用来自 KITTI 和 nuScenes 的问答对,在五个类别中评估 MLLM 对安全关键场景的理解能力。他们使用融合的图像帧和文本化的 LiDAR 摘要对 Video-LLaVA 和 GPT-4V 进行基准测试,采用 CoT 22 提示方法提升多模态推理能力,而不需要真实的时间建模。(一般的场景理解案例)
(II) 情景理解:相比之下,DOLPHINS [176]、Ishaq 等 [171]、WTS [191] 和 V3LMA [192] 专注于情景理解,其中时间上下文、主体交互和因果推理是核心。DOLPHINS [176] 提出了一种基于 MLLM 的系统,用于对驾驶场景和行为进行类似人类的理解。该模型构建在 OpenFlamingo 之上,首先通过图像–指令对进行指令微调,采用 Grounded Chain of Thought (GCoT),其中每一步推理都明确关联视觉证据,以确保视觉驱动的场景推理。随后,模型通过 VideoMAE 和 Ada-002 检索的上下文示例适配到驾驶视频。在训练过程中,仅更新感知重采样器、门控交叉注意力和 LoRA 模块,使框架高效运行,同时支持多种驾驶任务。Ishaq 等 [171] 提出了一种场景级空间理解框架,将短视频片段、驾驶轨迹文本以及文本查询整合在一起。他们使用轨迹编码器和查询生成器来融合多模态信息,随后传入带有适配器层的冻结 LLaMA-2 模型。通过训练查询生成器和适配器,模型可以高效地进行多模态推理。(更进一步的情景理解案例)
具体来说,WTS [191] 和 V3LMA [192] 关注场景描述,其中 WTS 强调可观察的元素、推理目标空间-时间关系、意图推断和因果分析。WTS [191] 外部使用 GPT-3.5 生成人工引导的真实描述,并通过 LLMScore 对模型输出进行评估,该评分衡量语义和句法相似性。所提出的 Instance-VideoLLM 结合了 CLIP ViT-L/14、Video Q-Former 和 Vicuna-7B,并对适配器和 Q-Former 进行了微调。该模型在增强的视频输入上训练,这些输入包含边界框、注视数据和场景上下文,并与其他现成的多模态大型模型(MLLMs)进行比较。V3LMA [192] 提出了一种融合方法,将预训练的 LLMs 和 VLMs 结合,以增强零样本 3D 场景理解。他们使用现成工具进行定位、目标检测和深度估计,以生成结构化场景描述,然后输入到 LLM 中。MLLM 的视觉特征随后在特征级别或分类头进行融合。尽管是零样本,模型仍取得了具有竞争力的性能,可与经过微调的 MLLMs 相媲美。(详细说明情景理解的提到的几个案例)
目前用于场景和情景理解的多模态大模型主要关注短期时间上下文和精心设计的问答任务,这在真实的现实环境中缺乏验证。为了朝着更全面的情景理解发展,未来的工作应探索长时间跨度的时间建模、事件序列间的因果推断,以及对分布外场景的鲁棒处理。(存在的一些问题)
风险评估:
多模态语言大模型(MLLMs)的目标包括风险检测和违规推断以预判危险、推理和场景级安全评分以分析事故,以及可执行建议的生成。
一种风险评估方法强调通过可解释的情景理解进行主动的危害缓解。例如,AccidentGPT [194] 将多模态感知(如图像、3D 检测、BEV 特征和轨迹)与 GPT-4V 结合,用于基于数据集 DeepAccident [193] 的零样本情景描述;同时利用 GPT-4 通过 CoT 和 CP 进行进一步的安全评估。它支持实时事故预防、事故后的分析以及通过可解释推理进行的互动安全决策。(可解释的情景理解进行主动的危害缓解)
其他工作则侧重于实现交互式安全感知和反馈。MLLM-SUL [177] 使用 ResNet-101 和 Swin-L 融合多尺度视觉输入以获取低分辨率和高分辨率特征,通过 Query Formers 和 Gate-Attention 结合,基于 HiLM-D [175] 提供的数据集 Drama-ROLISP 和 Drama-SRIS。它通过适配器微调 LLaMA2-7B,并应用 MLP 头进行场景描述和风险物体定位。类似地,ScVLM [195] 提出了一个基于多阶段的 MLLM 框架用于风险评估,基于 nuScenes 数据集,结合事件类型分类、冲突类型识别和叙事生成。它使用 VideoLLaMA2 进行零样本视觉上下文提取,并使用 LLaMA 3.1 8B 根据 FPV 驾驶视频生成关于安全关键事件的详细描述。(交互式安全感知和反馈)
第三个方向强调通过结构化问答进行风险推理。Abu 等人 [196] 提出了一种基于 MLLM 的框架,用于使用 DRAMA 数据集中的 FPV 视频进行安全关键事件检测。他们采用基于问答的风险分析结合上下文学习,比较了 Gemini-Pro-V1.5、Gemini-Pro-Video 和 LLaVA 的表现,同时利用滑动窗口捕捉和文本上下文提示来增强风险事件检测。(结构化问答进行风险推理)
然而,为了确保实际影响,关键是要建立基于 MLLM 的风险评估的可靠性和确定性。这仍然是一个主要挑战,因为 MLLM 的行为本质上是随机的,可能会产生不一致的输出。(存在的问题)
D. 局限性与未来方向
多模态大语言模型(MLLMs)通过利用其多模态能力,能够生成和分析各种情景。然而,目前尚不存在专门针对自动驾驶(AD)并结合激光雷达、摄像头和雷达等互补传感器模态的预训练MLLM。作为未来的方向,这凸显了对大规模多模态数据集以及针对自动驾驶定制的预训练MLLM的需求。(总结局限和方向)
基于MLLM的场景生成:
如表6所示,只有两项研究探索了基于MLLM的情景生成:一项针对安全关键情景,另一项侧重于ADAS测试。这凸显了一个显著的研究空白,并表明VOLUME和MLLM在这一领域的更广泛潜力仍然 largely 未被探索。未来的工作可以扩展到其他应用,如驾驶策略评估、闭环情景生成以及复杂真实驾驶事件的重建。(数量少,应用窄)
一个新兴的研究方向是检索增强的场景生成。虽然现有的检索增强生成框架通常基于文本数据库,但多模态大语言模型(MLLMs)允许整合包含地图、带注释的交通视频和LiDAR点云的多模态知识库。这样的丰富上下文可以支持更为多样化、真实感更强且具情境感知的场景生成流程。(新兴的方向)
基于MLLM的情景分析:
如表7所总结,目前的预训练多模态大语言模型(MLLMs)尚不足以应对驾驶场景分析的复杂性。现有模型在处理需要对齐和处理多种模态输入的专业任务时常常表现不佳。虽然指导微调、基于适配器的方法以及参数高效技术等微调策略正在被积极探索,但这些适配通常是必要的,因为通用预训练模型缺乏足够的特定领域理解能力。同时,还需要解决若干技术挑战。可靠性仍然是一个主要关注点,因为MLLMs容易出现事实性幻觉和输出不一致的问题,这在安全敏感应用中尤为关键。降低推理时间同样重要,这可能涉及架构创新、模型压缩与蒸馏,或支持跨多模态的可解释、低延迟推理的适配策略。(存在的一些问题和挑战,以及建议)
从应用的角度来看,有前景的方向包括利用多模态大语言模型(MLLMs)进行高保真传感器模拟,以及建模多种交通参与者之间的复杂交互,如车辆、行人和骑行者。此外,在边缘部署MLLMs以支持实时态势感知和协作人机交互,代表了未来研究中一个有价值且尚未充分探索的机会。(应用上的局限)
网硕互联帮助中心





评论前必须登录!
注册