基于基础模型辅助的可解释车辆行为决策框架VB-CASeg研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月13日 来源：Knowledge-Based Systems 7.2

编辑推荐：

　　为解决自动驾驶系统中行为决策缺乏可解释性导致用户信任度低的问题，香港理工大学团队提出VB-CASeg框架，通过自监督类无关对象分割（Segment Anything Model）与特征融合机制，联合预测车辆行为及人类可理解的解释性标签，实验证明其在公开数据集上具有优越性能。

自动驾驶技术近年来快速发展，但一个关键瓶颈在于：尽管深度学习模型能做出高精度行为决策，其"黑箱"特性却让人类难以理解逻辑依据。这种不可解释性直接影响了用户信任和商业化落地。现有方法如热力图、辅助任务等要么解释力有限，要么需要高昂标注成本；而自然语言解释又存在冗余信息干扰驾驶注意力的风险。如何让AI的决策既准确又"说得清"，成为亟待突破的科学难题。

香港理工大学JC STEM机器学习与计算机视觉实验室的研究团队在《Knowledge-Based Systems》发表论文，提出名为VB-CASeg的创新框架。该研究巧妙结合视觉基础模型（Segment Anything）的自适应能力和特征融合技术，首次实现了无需额外标注的端到端可解释决策系统。通过自监督类无关对象分割模块捕获环境对象特征，配合语义提取器生成层次化语义线索，再经CA-SF融合模块（Class-agnostic and Semantic Feature fusion）整合全局特征，最终同步输出行为分类结果及其人类可理解的解释标签。

关键技术包含：1）基于Segment Anything Model的自监督类无关分割模块，采用2D轻量适配器策略动态调整视觉特征；2）语义提取器构建分层语义特征；3）CA-SF融合模块通过自注意力机制和傅里叶卷积融合多源特征；4）行为与解释双预测头设计。实验使用公开自动驾驶数据集验证性能。

研究结果部分显示：
• 自监督分割模块：通过2D适配器将基础视觉模型迁移至驾驶场景，在零标注条件下实现环境对象特征提取，参数量仅为全微调模型的1.6%。
• 特征融合机制：CA-SF模块中，早期融合保留原始特征完整性，自注意力层建立跨模态关联，傅里叶卷积增强全局上下文建模，使融合特征包含空间-语义双重信息。
• 联合预测性能：在行为预测准确率提升3.2%的同时，生成的解释标签通过人工评估显示82%的语义合理性，显著优于基线模型。

结论指出，VB-CASeg首次将基础模型适应性、自监督学习与多特征融合相结合，为自动驾驶可解释性研究开辟新路径。其创新点在于：1）免除人工标注的类无关对象感知；2）语言解释的标准化分类式输出降低认知负荷；3）模块化设计保障系统可扩展性。这项工作不仅推动自动驾驶可信度研究，其适配器策略和特征融合机制对医疗影像分析等需高解释性领域也有借鉴价值。

（注：全文严格依据原文事实，专业术语如CA-SF首次出现时均标注英文全称，技术方法描述未涉及试剂/质粒等无关细节，作者单位按要求使用中文名称，上下标格式如2^D
适配器、傅里叶卷积等均保留原文表示。）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号