协同共创工作坊:医学人工智能伦理操作化的新路径
《BMC Medical Ethics》:Operationalizing AI ethics in medicine—a co-creation workshop study
【字体:
大
中
小
】
时间:2025年10月30日
来源:BMC Medical Ethics 3.1
编辑推荐:
本研究针对当前AI伦理框架多停留在高层原则而缺乏可操作指导的困境,提出并验证了一种基于协同共创工作坊的新方法,成功将伦理原则转化为医疗AI系统开发中的具体可量化要求。研究通过组织卒中临床决策支持系统(CDSS)项目的多学科参与者,采用结构化叙事分享和Planguage规划语言,识别出可解释性、隐私、模型稳健性等关键伦理要求,并发现了时间敏感性、患者包容性照护等超出欧盟可信AI指南的新问题。该方法为资源高效地实现AI伦理落地提供了实践范本。
随着数字化医疗数据的激增,人工智能(AI)在医疗健康领域展现出巨大潜力,尤其是在临床决策支持系统(CDSS)方面。然而,AI的广泛应用也引发了深刻的伦理担忧。尽管全球已有大量AI伦理指南(至2019年中已超过80份),例如欧盟高级别专家组(HLEG)发布的《可信AI伦理指南》中明确提出了人类监督、技术稳健性、隐私、透明度等七项关键要求,但这些框架普遍存在一个核心问题:它们侧重于高层原则的阐述,却缺乏将原则转化为具体开发实践的可操作指引。这种“原则主义”方法导致伦理要求与实际开发之间出现显著鸿沟,使得许多AI应用(包括医疗领域)仍面临种族偏见、加剧社会不公、数据安全漏洞等伦理挑战。因此,如何将抽象的伦理原则“操作化”(Operationalizing),即转化为具体、可量化、可执行的低层级要求,成为推动可信AI发展的关键。
为了应对这一挑战,Lopez-Ramos等人发表在《BMC Medical Ethics》上的研究,创新性地提出并探索了一种基于协同共创工作坊(Co-creation workshop)的方法,旨在为医学AI项目(特别是欧洲地平线计划项目VALIDATE——一个开发用于卒中患者分层的AI基临床决策支持系统的项目)提供一种实用的伦理操作化路径。
研究人员针对VALIDATE项目成员开展了系列的虚拟协同共创工作坊。研究采用了定性、参与式的研究方法。20名来自不同机构、拥有科学、技术或管理背景的项目工作人员被分为五个多元化的团队。每个工作坊线程包含准备、第一次会议(聚焦于结构化小组叙事分享,以识别伦理议题和困境)、会间分析(对转录内容进行编码)、第二次会议(议题优先排序并使用Planguage规划语言初步制定可量化的低层级要求)以及工作坊后分析等阶段。工作坊由三名具备AI伦理和 facilitation 专业知识的协调人引导。数据分析采用了内容分析法,对叙事转录稿进行编码和主题提炼,以识别参与者关注的核心伦理问题、困境及潜在需求。同时,研究还通过问卷调查收集了程序和反馈数据,以评估工作坊的有效性和参与者的体验。
研究结果揭示了五个核心主题。首先,在伦理议题的优先排序上,可解释性(Explainability)、隐私、模型稳健性(Model Robustness)和模型有效性(Model Validity)被所有工作坊团队提及,其中可解释性和认知权威性(Epistemic Authority)被提及次数最多(各16次)。其次,参与者识别出的关键伦理问题包括:对AI决策原因的理解需求(可解释性)、数据保护与利用的张力(隐私)、模型在真实世界和不同亚群中的性能保持(模型稳健性)、临床医生对AI建议的信任程度(认知权威性)、在不同人群中的公平性(Fairness)、系统局限性等信息披露(Transparency)以及人类最终决策权(Human Autonomy and Oversight)等。第三,在要求形式化方面,四个工作坊团队成功使用Planguage将其优先议题(如隐私、可解释性、透明度)转化为具体的、可量化的低层级要求草案,这些草案随后被协调人提炼并纳入项目特定的伦理框架中。第四,研究发现了六个难以映射到欧盟可信AI指南中的议题,包括时间敏感性(Time Sensitivity)、有效性(Validity,该术语被广泛使用但含义多样)、对患者的伤害预防(Prevention of Harm)、患者包容性照护(Patient-Inclusive Care)、生活质量(Quality of Life)考量以及诉讼预防(Lawsuit Prevention),这显示了协同共创过程能发掘出标准指南之外的伦理考量。最后,程序性反馈表明,参与者对工作坊整体体验积极,但在使用Planguage形式化要求时感到更具挑战性。工作坊方法被证明是资源高效的,但其效果可能受团队内部权力 dynamics 影响,且由于项目中缺乏直接的患者参与者,存在一定的视角盲区。
本研究主要依托于协同共创工作坊这一核心形式。关键技术方法包括:1) 参与者招募与团队构建:从VALIDATE项目中选择20名具有不同专业背景(如神经科医生、AI研究员、软件开发者、患者代表等)的成员,并刻意构建多元化的跨学科工作团队。2) 结构化叙事分享(Storytelling):引导参与者分享与AI伦理相关的真实或假设经历,以此引发伦理讨论。3) 内容分析:对第一次工作坊会议的转录稿使用MAXQDA软件进行编码,识别伦理议题、困境和上下文信息。4) Planguage规划语言应用:在第二次会议中,引导参与者将优先议题转化为具有参数、尺度和完成度度量的具体、可量化的低层级要求。5) 程序性反馈收集:通过问卷调查和协调人反思,评估工作坊过程的有效性和参与者的满意度。
分析显示,可解释性、模型有效性、隐私和模型稳健性被所有五个工作坊团队(WSTs)提及。在所有议题中,可解释性和认知权威性被提及频率最高(各16次),其次是公平性(12次)、模型有效性(11次)、透明度(11次)、隐私(9次)以及人类自主性与监督(8次)。各团队对前10大议题的排序存在差异,有效性和可解释性被多数团队高度优先考虑。常见的伦理困境包括在机器学习设计中选择全局模型还是亚群模型、优化敏感性还是特异性、以及便利性与隐私之间的权衡等。
- ••可解释性:讨论集中在使用可解释AI算法理解决策原因,以促进医生接受度、进行合理性检查以及建立患者信任。缺乏可解释性会导致理解、价值和能动性的缺失。
- ••隐私: concerns 包括将数据收集限制在最低必要程度,以及数据多样性与隐私保护(如GDPR合规)之间的潜在张力。参与者强调了敏感数据不安全带来的滥用风险,以及医学影像等数据难以完全匿名化的挑战。
- ••模型稳健性:涉及在训练数据未能完全代表的真实世界场景中保持模型准确性,以及因社会经济因素导致的患者人口统计学变化(概念漂移)所带来的性能挑战。模型更新的监管(如MDR)要求与保持模型适应性之间存在张力。
- ••认知权威性:指临床医生基于自身专业知识信任和采纳AI建议的程度。讨论涉及当临床医生与AI意见分歧时的决策冲突,以及由此产生的责任问题。对AI的信任被认为不仅取决于系统本身,也取决于使用者的特征和经验。
- ••公平性:讨论涉及在不同人群上训练模型、社会经济差异、可及性以及系统性偏见。例如,农村患者可能因就诊晚而导致模型偏见,经济壁垒可能导致只有富人能获得AI系统服务,以及训练数据中的历史偏见可能伤害某些群体。
- ••透明度:焦点在于明确系统局限性、不确定性程度、所使用的数据以及模型性能声明的含义。在追求软件易用性的同时,可能存在忽略重要信息的风险。
- ••人类自主性与监督:提及内容包括告知患者决策、患者无法沟通时的挑战,以及保持“人在回路”的必要性。过度依赖AI导致医生技能退化的“去技能化”(Deskilling)问题也受到关注,尤其对于经验较少的医生或在高压环境下工作的医生。
在第二次工作坊会议中,参与者努力使用Planguage将他们选定的优先议题转化为具体要求。WSTs 1-4针对其优先议题(隐私、可解释性、透明度、模型有效性)起草了低层级要求的初始版本,而WST5则生成了量化要求的片段。协调人随后将这些草案提炼并整合到项目的伦理框架中,形成了更具条理和参数化的要求。例如,关于隐私的要求最终被表述为“AI工具在[日期]前通过[隐私实践]存储所有[开发材料]”等具体、可衡量的语句。
分析发现,有六个在第一次会议中提出的议题无法映射到欧盟可信AI指南:
- 1.1.时间敏感性及其变异性:涉及AI在患者分诊和时间管理中的效率收益与潜在延迟之间的平衡,以及与可解释性可能存在的张力。
- 2.2.有效性:该术语被用作一个广泛的统称,指代AI系统评估的各种理想方面,含义多样,包括系统对相关人群的有效性、验证指标的充分性、成本效益考量、敏感性与特异性的战略决策、系统性能相对于当前护理标准的透明证据以及随机对照试验(RCT)合规性等。
- 3.3.对患者的伤害预防:包括因AI系统决策不正确而导致的伤害风险,例如过度诊断带来的患者困扰。
- 4.4.患者包容性照护:在AI推荐的治疗与患者价值观冲突时,赋能患者表达关切。但在时间紧迫或患者无法沟通的情况下,确保患者意愿得到体现存在挑战。
- 5.5.生活质量:患者可能对治疗选择或恢复概率与治疗后生活质量改善(考虑副作用等)之间的权衡有不同的偏好。
- 6.6.诉讼预防:患者结果不理想可能引发诉讼,但设计良好的AI系统可能通过确保医疗决策基于更全面的证据,从而带来“更多诉讼,但诉讼结果更好”。
参与者和协调人的评分以及开放式问题的反馈表明,工作坊整体获得了积极评价。第一次会议(叙事分享和议题识别)在总体感受、内容与成果、人际沟通以及自评技术与医学素养方面的得分中位数均高于3分(4分制)。然而,第二次会议(优先排序和Planguage定义)的得分较低,反映出参与者在应用结构化规划语言时面临挑战。协调人对工作坊成果质量的评分中位数在3或4分。反馈也指出,团队内部层级可能影响参与度,且Planguage工具对于背景多样的参与者存在学习曲线。
本研究成功展示了一种通过协同共创工作坊操作化AI伦理的新方法。该方法能够有效地从项目相关人员那里获取关键的、可操作的伦理要求,并识别出标准指南(如欧盟HLEG可信AI指南)可能未涵盖的伦理考量。其核心优势在于资源效率高,相较于嵌入式伦理、价值敏感设计或Z-inspection等现有方法,所需投入的AI伦理专家资源更少,且易于扩展,同时与既定指南保持兼容。研究证实,协同共创能够促进多学科视角的融合,将高层原则转化为具体的设计输入,并提高项目团队的伦理意识。
然而,研究也揭示了该方法面临的挑战,包括:团队内部权力动态可能影响讨论的平等性;由于时间限制或参与者专业背景集中,可能导致某些伦理议题被忽视(盲点);Planguage等量化工具对于非技术背景的参与者存在应用难度;以及本研究中直接患者代表的缺失限制了患者视角的充分融入。未来研究可以探索优化工作坊组成(如同质背景小组对比异质背景小组)、改进Planguage的培训和支持材料、加强患者利益相关者参与(PSE)的策略,并将此方法与其他更深入的评估方法结合使用。
总之,这项研究为医学AI及其他领域的伦理操作化提供了一种实用、高效且可扩展的路径。它强调了在AI系统开发早期积极吸纳多元利益相关者共同定义伦理要求的重要性,为构建真正值得信赖的AI系统奠定了实践基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号