可解释人工智能中的人为因素:临床医生在信任、依赖和表现中的变异性

《npj Digital Medicine》:The human factor in explainable artificial intelligence: clinician variability in trust, reliance, and performance

【字体: 时间:2025年11月16日 来源:npj Digital Medicine 15.1

编辑推荐:

  本刊编辑推荐:为解决可解释人工智能(XAI)在医疗高风险应用中能否真正增强临床医生信任的问题,研究人员开展了基于超声图像的孕周(GA)估计研究。研究发现,虽然AI建议将临床医生平均绝对误差(MAE)从23.5天降至15.7天,但解释性功能并未显著改善信任或依赖,且效果存在个体差异。该研究强调了在部署XAI前进行人类因素评估的重要性,对推动可靠临床AI协作具有关键意义。

  
在人工智能(AI)席卷医疗领域的今天,一个核心矛盾日益凸显:深度学习模型虽在影像诊断等任务中表现出色甚至超越人类专家,但其"黑箱"特性却让临床医生望而却步。这种不透明性如同一个无法窥视的决策迷宫,即使模型给出精准建议,医生们也难以完全信赖一个无法理解其推理过程的"助手"。特别是在超声影像估计胎儿孕周(GA)这类高风险临床任务中,盲目依赖AI可能带来严重后果。
为此,可解释人工智能(XAI)应运而生,它被寄予厚望——通过提供模型决策的解释,增强用户的信任和理解。然而,这些美好设想大多停留在理论层面,缺乏真实临床场景的验证。当前研究多依赖自动化指标评估XAI,而非真实用户的表现。更关键的是,我们尚不清楚XAI是否真的能提升临床决策质量,以及不同背景的医生对同一解释会作何反应。
正是在此背景下,牛津大学Angus Nicolson等学者在《npj Digital Medicine》上发表了他们的最新研究。他们改编了一种基于原型的XAI模型,用于基于图像的孕周估计,并精心设计了一项三阶段读者研究,深入探究XAI对临床医生信任、依赖和表现的影响。研究特别引入了一个新颖的"适当依赖"行为度量标准,为评估人机协作质量提供了新视角。
研究团队采用的关键技术方法主要包括:首先,他们使用原型部分网络(ProtoPNet)这一可解释的深度学习模型进行GA估计,该模型通过将输入图像与训练数据集中有代表性的图像子部分(原型)进行比较来做出预测。其次,他们设计了严谨的三阶段读者研究方案,招募10名超声医生参与,依次评估其在没有AI辅助、仅有模型预测、以及有模型预测和解释三种情况下的表现。此外,研究还引入了权重建议(WoA)等量化指标来测量依赖程度,并通过问卷调查和自由文本反馈收集参与者对信任和解释有用性的主观评价。所有超声图像均来自INTERBIO-21st数据集,确保了数据的可靠性和代表性。

绩效影响与个体差异

研究发现,AI建议确实提升了临床医生的估计准确性。当参与者能够看到模型预测时,他们的平均绝对误差(MAE)从23.5天显著降低至15.7天。然而,提供解释性功能后,MAE仅进一步非显著地降至14.3天。均值背后隐藏着重要的个体差异:有些参与者在获得解释后表现提升,而另一些人的表现反而变差。这种差异与参与者自我报告的解释帮助程度显著相关——认为解释有帮助的人,其MAE在阶段三确实有所改善。

信任与依赖的复杂图景

与预期相反,解释性功能并未显著影响参与者自我报告的信任度或对模型的依赖程度。模型预测使参与者与模型预测的一致性从35%大幅提升至70%,但增加解释后,一致性仅微增至73%,且权重建议(WoA)值从0.65变为0.71,变化不显著。在"适当依赖"方面,阶段二和阶段三之间也无显著差异(65.8% vs 69.2%)。有趣的是,参与者的自信心却随着研究阶段的推进而持续增强,特别是在那些认为解释有帮助的参与者中,阶段三的信心提升更为明显。

临床医生的真实反馈

参与者的自由文本反馈揭示了解释性功能效果不一的原因。正面评价包括:"它帮助我看到了模型关注的图像区域,这提高了我的信任度和理解水平";而负面体验则如:"我发现解释非常令人困惑","让我对算法的想法失去了兴趣",或注意到模型与临床医生推理方式的差异:"用肉眼无法分析那个区域,但也许算法可以"。这些反馈表明,解释形式与临床医生习得的推理模式之间的不匹配可能导致认知负荷增加,反而阻碍了决策。

研究启示与未来方向

这项研究揭示了在临床环境中部署XAI模型的潜在益处和陷阱。MAE的降低表明AI模型能够提高临床医生的估计准确性,可能带来更好的患者结局。然而,在性能提升的同时,自我报告的信任度并未改善,这表明需要设计更符合临床医生预期和推理过程的解释策略。观察到的个体差异反应则指向一个更广泛的挑战:如何设计解释策略以支持不同用户间可靠的临床医生-AI协作。
研究者指出,这种异质性可能并非不可简化且必然需要个性化,而是反映了解释设计与临床医生推理之间的错位。因此,与其为不同用户定制解释,不如识别那些能引发更一致反应——即与临床医生决策过程更契合的解释格式。未来的研究应探索与解释呈现方式相关的因素(包括解释形式、向参与者提供的事前信息以及使用培训)如何减少用户在信任、依赖和表现上的差异。
该研究的主要优势在于其严谨的评估框架设计和真实世界相关性,紧密模拟了真实临床场景。然而,10名超声医生的小样本量限制了结果的普适性。此外,参与者并非该特定任务(仅凭图像特征估计GA)的专家,且研究捕捉的是即时反应。更长期、更大样本量的研究,涵盖不同专业领域和医疗任务,对于理解XAI在临床实践中的全面影响至关重要。
综上所述,这项研究强调,虽然XAI有潜力提升医疗决策的辅助性能,但其对人类信任和依赖的影响是复杂且多变的。在孕周估计的背景下,解释既可能改善也可能阻碍表现,这取决于具体的临床医生。这种变异性凸显了进行人类因素研究的必要性,因为只有通过直接观察用户与这些系统的互动,才能识别出这些关键问题。随着AI日益融入医疗保健,优化解释设计、用户界面、培训以及其他人为因素,与开发解释技术本身同样重要,这对于确保XAI方法能够真正支持临床医生做出更好决策至关重要。本研究为在真实临床任务中评估XAI提供了一个框架,明晰了信任、依赖和性能之间错综复杂的相互作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号