构建具有影响力的人工智能:一种以信任与可解释性为核心的外科手术研究方法
《npj Digital Medicine》:A surgical approach to building impactful artificial intelligence
【字体:
大
中
小
】
时间:2025年11月22日
来源:npj Digital Medicine 15.1
编辑推荐:
本文针对AI在外科手术中应用效果差异的问题,探讨了人机交互(HCI)因素的关键作用。研究发现,AI辅助的准确性提升受用户专业水平、信任度及可解释性(xAI)显著影响。通过对比两项神经外科视频分析研究,揭示了专家与新手对AI辅助的响应差异,并强调采用DECIDE-AI、IDEAL等结构化评估框架对实现AI安全整合至关重要。
在数字化医疗快速发展的今天,人工智能(AI)正逐步融入外科手术的各个领域,从术前规划到术中导航,展现出变革传统医疗模式的巨大潜力。然而,随着AI技术的深入应用,一个关键问题日益凸显:为什么在某些场景下,AI辅助能显著提升专家级外科医生的诊断准确性,而在另一些场景下,专家却对AI的建议持保留态度?这种差异背后的驱动因素,远非算法准确性这一单一维度所能解释,它深刻触及了人机交互(Human-Computer Interaction, HCI)的核心——信任与可解释性。
近期发表在《npj Digital Medicine》上的一篇观点文章《A surgical approach to building impactful artificial intelligence》直面了这一挑战。文章通过剖析两项在神经外科AI视频分析中得出看似矛盾结果的研究,揭示了影响AI在真实世界中发挥效用的非技术性因素。这两项研究分别由Khan等人和Williams等人完成。Khan团队的研究聚焦于内镜下经鼻垂体手术中“鞍区”(sella)这一关键解剖结构的识别。鞍区被复杂的颈内动脉和视神经环绕,是手术进入的安全区域。参与者(包括医学生到资深外科医生)被要求勾勒出鞍区范围,之后会看到AI的预测轮廓,并可选择调整自己的判断或坚持原答案。然而,AI并未提供任何解释其决策的依据,像一个“黑箱”。结果发现,基线知识最少的医学生最为信任AI,他们的准确率因此提升了13%,而专家的提升则微乎其微。
与之形成鲜明对比的是Williams团队的颅内动脉瘤识别研究。尽管任务不同(分类任务而非分割任务),但参与者除了获得AI的“是/否”判断外,还得到了模型的准确性指标以及以热图(heatmaps)形式呈现的AI决策焦点区域,相当于揭示了AI在图像中的“注意力”所在。这种部分打开“黑箱”的做法产生了截然不同的效果:专家神经外科医生凭借其丰富的经验,能够利用热图来验证自己的直觉,在疑难情况下更倾向于信任AI,其准确率从77%大幅提升至92%。而新手则无论解释质量如何,都更依赖AI的基准判断。
为何会出现如此差异?文章指出,根本原因在于AI并非一个静态工具,而是一个受其部署环境和一系列人为因素影响的复杂干预措施。对于专家而言,缺乏解释的AI输出无法与其深植于心的启发式判断和临床经验相融合,因此难以获得信任。而当提供了模型性能背景和决策依据(如热图)时,专家就能将AI的输出与自身知识体系进行校准,实现更有效的协同。相反,新手由于经验不足,可能更倾向于接受AI的权威性。这表明,AI的影响力不仅取决于其算法精度,更取决于用户如何感知、信任并使用它。如果核心的HCI因素——如信任、可解释性(Explainable AI, xAI)、可用性和感知工作量——没有得到妥善解决,即使部署了高精度算法,其实际效果也会大打折扣。
为了系统化地应对这些挑战,文章强调了在AI医疗器械全生命周期中融入结构化评估框架的必要性,重点介绍了IDEAL(Idea, Development, Exploration, Assessment, Long-term follow-up)框架和DECIDE-AI(DevElopment, CIinical DEcision, Artificial Intelligence)报告规范。IDEAL框架为外科创新(包括设备与AI)的评估提供了从概念到长期随访的路线图。而DECIDE-AI则专门针对AI在临床环境中早期、首次人体评估阶段的报告缺口,强调在此迭代最频繁的阶段,就必须优先考虑HCI因素的评估,将用户信任、工作负荷和认知一致性等指标纳入临床前研究(IDEAL Stage 0)。信任并非静态的,它会随着时间和对AI系统经验的积累而演变,因此需要进行纵向研究来绘制其动态轨迹,并为随机对照试验等比较性研究的设计和解读提供信息。
文章进一步提出了面向未来的设计原则:首先,在整个创新生命周期中持续测量HCI因素,采用混合方法,并利用DECIDE-AI、STARD-AI、TRIPOD-AI等针对不同阶段的框架。其次,建立以用户为中心的设计反馈循环,收集不同临床和技术背景用户的反馈,确保AI系统满足多样化的需求。再次,尽可能纳入可解释AI原则,提供清晰的指标(如输入相似性、输出置信度)和解释(如显著图),以促进良好校准的人机协同,同时在实时应用中需谨慎平衡额外信息与认知负荷及安全性之间的关系。最后,也是至关重要的,是将临床结局纳入评估——在临床前环境中达成良好的人机协同后,必须在真实的临床和患者报告结局层面进行进一步校准。
将HCI纳入医疗AI评估也面临实际困难,如医护人员的时间限制、HCI专家的可获得性以及额外的评估成本。然而,在早期分析中引入专门的HCI团队被证明是应对这些挑战的有效策略。这不仅有助于提升AI系统的安全性和可用性,其产生的人机交互证据也能为监管审批过程中的形成性和总结性可用性反馈提供支持,从而带来更细致的风险分析和更有效的风险控制措施,最终催生更安全的医疗器械。
本研究为观点性论述,并未涉及具体的实验操作和技术步骤。其核心方法在于对两项已发表的神经外科AI视频分析研究(Khan et al. 和 Williams et al.)进行深入的比较分析。分析侧重于研究设计、任务类型(解剖分割与病变分类)、AI辅助信息的呈现方式(有无解释性热图、模型性能指标)以及参与者的专业背景差异。研究依托于IDEAL和DECIDE-AI等评估框架,强调在AI设备开发生命周期早期系统化地融入对人机交互(HCI)因素(如信任、可解释性、认知负荷)的评估,并引用了霍夫曼信任量表(Hoffman Trust Scale)、NASA任务负荷指数量表(NASA TLX)等多种经过验证的度量工具进行量化分析。
Khan的研究表明,在缺乏AI决策解释的情况下,低年资参与者(医学生)表现出最高的信任度,完全遵循AI建议,而专家则几乎不受影响。相反,在Williams的研究中,提供了模型热图和性能指标后,专家能够有效利用这些信息校准自身判断,在复杂情况下选择信任AI,获得了最大的准确性提升(14%)。这证实了解释性对于获得高专业水平用户的信任至关重要,而新手可能更无条件地依赖AI输出。
分析指出,AI的实际成效是其算法性能与一系列HCI因素共同作用的结果。图1归纳了影响AI在医疗保健中实际表现的关键非技术性能因素,包括信任(采用霍夫曼量表等衡量)、可解释性(采用解释满意度评分等衡量)、临床医生专业知识(通过培训等级、手术日志等评估)以及认知工作量(采用Surg TLX、NASA TLX等评估)。这些因素必须与IDEAL和DECIDE-AI框架保持一致,以确保在临床实施中进行严格评估。
文章引用放射学、皮肤病学等领域的案例,说明提供模型基本原理(如热图)的界面可以增加临床医生对AI的认同并塑造信任。但同时指出,即使内置了可解释功能,临床医生有时仍会过度依赖看似令人信服但错误的AI输出,导致性能下降,这凸显了在创新生命周期内进行真实世界结局评估的必要性。
DECIDE-AI和IDEAL等框架为系统评估AI提供了路线图。它们强调在技术迭代最频繁的早期临床评估阶段,就必须优先评估HCI因素,并关注信任的动态演变特性。结构化地评估HCI对于确保系统能够适应用户需求、为安全有效部署做好准备至关重要。
本项分析得出了一个明确结论:外科AI的最终成功不仅仅依赖于精确的算法,更取决于对人机交互因素,特别是可解释性和信任的深思熟虑的整合。Khan和Williams的研究强调了根据用户专业知识水平定制AI支持以及确保决策过程透明化的必要性。专家与新手对AI辅助的不同响应模式揭示,一刀切的AI解决方案可能无法发挥最大效用。通过利用IDEAL和DECIDE-AI等框架,开发者和临床医生可以在AI设备的整个生命周期中有系统地解决这些人为因素。将HCI原则贯穿于创新生命周期,不仅有助于实现更良好校准的人机协同,提升AI的采纳度和有效性,还可能通过提供更全面的可用性和风险证据,间接惠及医疗器械的监管审批流程,最终推动人工智能安全、稳健地整合进外科实践,改善患者结局。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号