SafeTraffic Copilot:基于大语言模型的可信交通安全评估与决策干预新范式
《Nature Communications》:SafeTraffic Copilot: adapting large language models for trustworthy traffic safety assessments and decision interventions
【字体:
大
中
小
】
时间:2025年10月08日
来源:Nature Communications 15.7
编辑推荐:
本研究针对交通事故预测中数据异构性高、模型可信度低等挑战,开发了SafeTraffic Copilot框架。该研究通过将多模态碰撞数据文本化构建SafeTraffic Event数据集(66,205个案例),并基于LLaMA 3.1微调得到SafeTraffic LLM,在碰撞类型、严重程度和受伤人数预测任务中平均F1分数提升33.3%-45.8%。创新提出的句子级特征归因框架SafeTraffic Attribution可实现条件风险分析,发现酒驾(BAC≥80 mg/dL)与施工区叠加会使严重事故风险提升近一倍。该研究为交通安全领域提供了兼具预测准确性、解释性和泛化能力的决策支持新范式。
在美国,道路交通事故始终是严峻的公共卫生挑战。尽管已采取数十年应对措施,交通事故死亡率曲线仍在攀升,尤其是美国,其人均死亡率在发达国家中高居前列。仅2022年,美国就有42,795人死于道路交通事故。预测预期交通事故并设计针对性干预措施极具挑战性,这源于事故数据固有的复杂性以及对预测结果可信度的持续担忧。传统的预测方法,无论是宏观层面的统计模型还是微观层面的机器学习模型,都存在明显局限。宏观模型虽能揭示时空趋势,但缺乏对具体事故细节(如何人、何事、何因)的解释粒度;而微观模型虽试图预测特定交通条件下的碰撞后果,却在预测精度和泛化能力上表现不佳。一个根本性挑战在于如何有效整合与事故相关的多模态数据,这些数据涵盖文本叙述、数值数据、图像及驾驶员历史记录等,并解读众多影响因素之间复杂的相互作用,这限制了它们在制定有效安全政策方面的实用性。
近期兴起的基础模型,特别是大语言模型(Large Language Models, LLMs),为变革这一领域带来了机遇。这些生成式LLMs拥有广泛的世界知识和强大的文本推理能力,若能将其与诸如道路特征和驾驶员历史等结构化数据对齐,则有望提供比以往更全面的理解。然而,将这些强大的生成模型重新设计以可靠地预测一组明确定义的有限类别(例如,事故严重程度级别)内的结果,引发了关于其预测可信度和校准性的重大关切,这对于公共安全等高风险应用至关重要。此外,模型固有的“黑箱”特性是实现针对性安全改进所需可解释性的主要障碍。
针对上述挑战,约翰斯·霍普金斯大学的研究团队在《Nature Communications》上发表了题为“SafeTraffic Copilot: adapting large language models for trustworthy traffic safety assessments and decision interventions”的研究论文。该研究引入了SafeTraffic Copilot这一LLM驱动的框架,将范式从聚合级统计转向细粒度的事件级事故预测和理解。通过将事故预测重新构建为基于文本的推理任务,SafeTraffic Copilot旨在解决数据集成、模型泛化和特征归因等关键挑战。
为开展研究,研究人员主要应用了以下几项关键技术方法:首先,采用AI-专家协作的文本化流程,将来自美国公路安全信息系统(Highway Safety Information System, HSIS)的多模态碰撞数据(包括事故数据、基础设施数据、车辆数据、人员数据)以及通过Google Maps API获取的卫星图像(经GPT-4o处理生成文本描述)整合,构建了包含66,205个真实世界碰撞案例、约1450万词的SafeTraffic Event数据集。其次,基于LLaMA 3.1(8B和70B参数版本)模型,通过引入代表预测目标(受伤人数、严重程度、事故类型)的特殊令牌,并采用低秩自适应(Low-Rank Adaptation, LoRA)微调技术,开发了专用的SafeTraffic LLM。最后,提出了基于句子级Shapley值的特征归因框架SafeTraffic Attribution,用于量化输入文本中各个特征对模型预测结果的贡献度,支持条件风险分析和数据收集指导。
Conditional expected crash prediction(条件预期事故预测)
研究将事故预测定义为条件预期事故预测,即估计在指定条件下(如特定道路属性、环境条件、交通量和驾驶员行为下)预期的事故特征(包括事故类型、严重程度、受伤人数及其发生可能性)。预测目标包括三个变量及其对应的置信度分数:受伤人数(Number of Injury)、严重程度(Severity)和事故类型(Crash Type)。受伤人数预测任务被处理为一个四分类问题(零人、一人、两人、三人及以上)。严重程度评估事故中的伤害严重程度级别(从无明显伤害到致命伤害共五级)。事故类型任务则对事故类型进行分类。
Developing SafeTraffic LLM for predicting crashes(开发用于预测事故的SafeTraffic LLM)
为了利用多模态碰撞数据进行事故预测,研究开发了SafeTraffic Copilot事故结果预测流程,将事故结果预测转化为基于文本的推理任务。构建的提示词(Prompt)分为五个部分:系统提示词(介绍和任务说明)以及四个内容部分(通用信息、基础设施信息、事件信息、单元信息),每个部分约100词。通过微调,使SafeTraffic LLM能够理解事故事件并进行准确的结果预测。
Prediction performance and trustworthiness(预测性能与可信度)
评估结果表明,SafeTraffic LLM在所有事故类型、严重程度和受伤人数预测上均提供了最准确可靠的结果,即使在零样本(zero-shot)场景下也是如此。在华盛顿州和伊利诺伊州数据集上的监督微调实验中,SafeTraffic LLM在各项任务设置中均优于所有基线模型,平均F1分数提升了33.3%至45.8%。SafeTraffic LLM提供了可信的事故预测,其置信度分数与准确性呈强正相关:置信度越高,预测准确性越高。例如,当置信度分数超过0.60时,预测准确率超过80%。对于致命事故预测,当置信度分数超过0.60时,精确度(Precision)可达95%以上,表明模型对此类高风险事件具有高度准确性和可信度。此外,模型展现出可靠的空间和时间泛化能力,在未见过的州(缅因州、北卡罗来纳州、俄亥俄州)进行零样本测试,以及在不同年份数据上进行时间外推测试时,性能保持稳定。
SafeTraffic Attribution framework(SafeTraffic归因框架)
为了理解SafeTraffic LLM如何生成预测以及输入提示词的各个组成部分如何影响输出,研究提出了SafeTraffic Attribution框架。该框架采用基于句子的特征贡献计算方法,基于Shapley理论来识别每个句子对LLM输出的贡献。这揭示了事件级别的碰撞相关因素。例如,在单个事故案例中,可以量化驾驶员行为、人员信息(如未系安全带)、动态信息(如白天、干燥路面)等因素对预测严重伤害事故置信度的正负贡献。
Factor attribution at the inference stage for conditional risk analysis(推理阶段的条件风险分析因素归因)
利用SafeTraffic Attribution进行条件风险分析,重点评估严重事故(严重伤害和致命事故)。关键发现包括:1) 血液酒精浓度(Blood Alcohol Content, BAC)记录是预测严重和致命事故的关键决定因素,其贡献占总贡献的25.26%。即使驾驶员BAC未超过法定醉酒限值(80 mg/dL),该因素的贡献仍显著。2) 在清醒状态下在施工区驾驶风险较低,但饮酒后在此环境下驾驶风险急剧增加,成为严重伤害事故最高风险场景之一。3) 攻击性驾驶和与损伤相关的行为(如酒驾、毒驾)对严重事故结果的风险几乎是其他驾驶行为(如交通规则违反、分心驾驶)的三倍。4) 风险因素的共同出现会显著增加预期风险水平。无风险因素时平均风险水平为0.47,一个风险因素时升至0.59,两个时升至0.68,三个时达到0.73。
研究还分析了训练阶段不同数据组件(通用信息、基础设施信息、事件信息、单元信息)对模型性能的贡献。结果显示,对于严重程度预测任务,描述事故涉及主要实体属性的单元信息贡献最高;对于事故类型预测任务,提供车辆碰撞前运动信息的事件信息贡献最高。这为优化数据收集策略提供了依据,例如应优先确保驾驶员行为、车辆属性、弱势道路使用者状态和道路环境等关键信息的完整性和高质量。
将事故预测转化为文本推理任务,释放了多模态安全数据的全部丰富性。通过AI-专家共同设计的提示词,使LLMs能够联合推理行为线索(如“酒精损伤”、“施工区”)、碰撞前轨迹和环境背景,而非将其视为孤立的数字。这种多模态到文本的范式展示了一个强大的解决方案:通过基础模型集成多样化的碰撞信息流,不仅提高了预测准确性,还产生了透明、可操作的见解,以支持持续的安全改进。
集成丰富数据与强大的基础模型引擎,将预测从简单的分布拟合转向情境感知推理,产生了可跨区域泛化的透明且可信的见解。提出的SafeTraffic Attribution组件将这种信任转化为行动:它根据文本、视觉和分类线索对置信度的贡献进行排序,突出显示最可能提升风险的因素。值得注意的是,酒精 impaired driving(酒驾)使严重事故置信度得分提高0.47,凸显了其关键的政策相关性。
SafeTraffic LLM的条件归因引擎精确指出了哪些因素组合真正驱动了事故风险,按危险程度对场景进行排序,并揭示了可操作的“假设分析”(what-if)。在数据丰富的环境中,它能可靠地识别高风险组合(例如,施工区内的酒精使用,或损伤情况下的攻击性驾驶),指导有针对性的对策(如现场BAC检测或针对特定行为的教育)。其概率性的置信度信号随着准确性而上升,为每项建议提供了可量化的可信度。当数据稀疏时,相同的框架通过模拟进行泛化:分析人员可以切换罕见观察到的变量(如行人存在、高速公路几何形状等),并仍然获得可信的风险变化。这种经过校准的置信度和灵活的假设分析相结合,使相关机构能够在事故发生前设计精确的、基于证据的交通安全干预措施。
聚合的数据归因分析指出了最关键的碰撞记录要素,为更智能、面向未来的数据收集和质量控制提供了可推广的蓝图。当前,各州设计自己的碰撞报告表格,阻碍了通用标准的形成,抑制了国家级规模的分析。在微调阶段,单元级细节(如驾驶员行为、车辆属性)和事件级线索(如车辆运动、天气、道路状况)成为伤害严重程度的最强预测因子。因此,优先确保酒精使用、车辆缺陷、弱势道路使用者状态和道路环境背景等信息的完整、高分辨率采集,可以最大化模型收益,而这些字段的缺失会迅速削弱性能。此外,聚合归因分析也为评估数据质量提供了定量基础,显示了关键组件中缺失或不完整的值如何影响模型性能。将这些见解反馈到模板设计中,可以使机构标准化更丰富、更一致的报告协议,从而推动模型在不同区域的持续改进和可转移性,在不牺牲泛化性的情况下加速广泛的安全转型。
Limitations and future work(局限性与未来工作)
研究的主要局限性与多模态数据的处理有关。在SafeTraffic Copilot中,卫星图像被处理成文本描述并纳入提示词。虽然这种方法提供了灵活性,但多模态基础模型的进步以及将多模态数据与LLMs集成的研究日益增多,提供了有前景的替代方案。利用专门的图像编码器或使用多模态基础模型处理图像数据是值得探索的方向。另一个潜在限制在于模型训练和归因的效率。微调LLMs和计算特征贡献需要大量的资源和时间。尽管研究采用了LoRA微调和分层抽样技术来提高效率,但完整框架的实现仍然需要大量资源。这在资源稀缺或需要快速模型部署的情况下存在一定限制。
综上所述,SafeTraffic Copilot框架成功地将大语言模型应用于交通安全评估领域,通过将多模态数据文本化和专门的模型微调,显著提升了事故预测的准确性、可信度和可解释性。其创新的特征归因方法不仅能够识别关键风险因素,支持条件干预分析,还能指导高效的数据收集策略。该研究为利用人工智能,特别是基础模型,解决复杂的公共安全问题提供了新的思路和有力的工具,在泛化性、适应性和可信度方面展现出明显优势。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号