分享自:

多模态人工智能在驾驶危险预测中的潜力探索

期刊:IEEE Transactions on Intelligent VehiclesDOI:10.1109/TIV.2024.3417353

本文由Korawat Charoenpitaks、Van-Quang Nguyen、Masanori Suganuma、Masahiro Takahashi、Ryoma Niihara和Takayuki Okatani共同撰写,发表于2024年的《IEEE Transactions on Intelligent Vehicles》期刊。研究的主要机构包括日本东北大学信息科学研究科、理化学研究所AIP中心以及电装公司(Denso Corporation)。该研究聚焦于利用多模态人工智能(Multi-modal AI)预测驾驶中的潜在危险,特别是通过单张车载摄像头图像进行事故预测。

研究背景与目标

驾驶中的危险预测是自动驾驶和驾驶员辅助系统(ADAS)中的关键问题。现有的方法主要依赖于基于物理或机器学习的计算模拟,或通过视频进行异常检测。然而,这些方法通常依赖于对场景的低层次理解,难以预测较长时间跨度内的未来事件。本文提出了一种新的方法,通过单张静态图像进行高层次推理,将问题形式化为视觉溯因推理(Visual Abductive Reasoning, VAR)。该研究旨在利用多模态AI(如视觉语言模型,VLMs)来模拟人类驾驶员在驾驶过程中进行的复杂推理和预测能力。

研究方法与流程

研究的主要贡献在于提出了一个新的数据集——驾驶危险预测与推理数据集(Driving Hazard Prediction and Reasoning, DHPR),该数据集包含15,000张由车载摄像头拍摄的街景图像。每张图像都附带一个元组,包含车辆速度、假设的危险描述以及场景中的视觉实体。这些数据由人工标注者标注,标注者识别出潜在的危险场景,并提供几秒后可能发生的事故描述。

研究流程包括以下几个步骤: 1. 数据收集与标注:从现有的BDD100K和ECP数据集中筛选出潜在的危险场景图像,并通过亚马逊众包平台(Amazon Mechanical Turk)进行标注。标注过程包括识别危险场景、提供危险描述以及标注场景中的视觉实体。 2. 数据集构建:构建的DHPR数据集包含15,000张图像,每张图像附带车辆速度、危险描述和视觉实体的标注。数据集分为训练集、验证集和测试集,分别包含12,975、1,000和1,000张图像。 3. 任务设计:研究设计了两种主要任务:图像/文本检索任务和文本生成任务。检索任务包括图像到文本检索(Image-to-Text Retrieval, TR)和文本到图像检索(Text-to-Image Retrieval, IR),生成任务则是根据输入图像生成自然语言描述的危险解释。 4. 模型开发:研究提出了一种基于CLIP(Contrastive Language–Image Pretraining)的新方法,通过引入额外的文本到图像编码器和图像到文本编码器来增强模型的能力。生成任务则结合了预训练的大型语言模型(LLM)和视觉编码器。

主要结果

研究在DHPR数据集上评估了多种模型的性能,包括CLIP、BLIP、BLIP2、LLaVA以及GPT-4V。实验结果表明,基于CLIP的模型在检索任务中表现最佳,而生成任务中,结合了LLaMA-2的模型在BLEU-4、ROUGE、CIDER和SPIDER等指标上表现优异。GPT-4V在零样本生成任务中表现出色,尽管其生成的文本形式与标注文本有较大差异,但在语义相似性上得分较高。

结论与意义

该研究首次将多模态AI应用于驾驶危险预测,提出了基于静态图像的视觉溯因推理方法,并通过构建DHPR数据集为未来的研究提供了基础。尽管当前方法仅依赖于单张图像和车辆速度,但其结果表明,该方法在模拟人类驾驶员的复杂推理能力方面具有潜力。未来的研究可以进一步扩展该方法,引入视频输入和更多的车辆数据,以提高危险预测的准确性。

研究亮点

  1. 新颖的问题形式化:该研究首次将驾驶危险预测问题形式化为视觉溯因推理,填补了这一领域的研究空白。
  2. 数据集的构建:DHPR数据集为研究者提供了一个新的基准,用于评估多模态AI在驾驶危险预测中的表现。
  3. 多模态AI的应用:研究展示了多模态AI(如视觉语言模型)在驾驶危险预测中的潜力,特别是在复杂推理和预测任务中的表现。

未来研究方向

未来的研究可以进一步扩展该方法,引入视频输入和更多的车辆数据,以提高危险预测的准确性。此外,研究还可以探索如何将更多的车辆信息(如转向数据)整合到模型中,以增强其对复杂驾驶场景的理解能力。

总的来说,该研究为自动驾驶和驾驶员辅助系统的发展提供了新的思路,展示了多模态AI在驾驶危险预测中的巨大潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com