
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:医疗健康领域大语言模型的伦理考量系统性综述
【字体: 大 中 小 】 时间:2025年09月12日 来源:Frontiers in Digital Health 3.8
编辑推荐:
本综述系统分析2017–2025年间27项研究,揭示大语言模型(LLM)在医疗应用中面临的伦理挑战,主要包括偏见与公平性(n=7)、安全可靠性、透明可解释性及隐私保护等问题。GPT系列模型(n=14, 51.8%)在伦理讨论中占主导地位,多集中于临床决策支持与心理健康领域。作者提出涵盖监管框架、技术保障、人类监督及透明问责的四层伦理整合框架,为临床工作者、开发者和政策制定者提供负责任部署LLM的实践指引。
人工智能(AI)通过模拟人类认知功能如感知、推理和决策,正迅速改变医疗健康领域。作为AI的重要分支,深度学习利用多层神经网络自动从海量数据中提取特征,其中基于自注意力机制的Transformer架构极大推动了序列建模的发展。大语言模型(LLM)依托Transformer结构,在海量文本上进行预训练后针对特定任务优化,涌现出如OpenAI的GPT系列、Google的Bard/Gemini、Meta的LLaMA家族、Google的BERT及衍生模型(如BioBERT、ClinicalBERT)以及Anthropic的Claude等代表性模型。这些模型能够生成连贯文本、总结复杂文献并进行多语言对话,在临床决策支持、患者交互聊天机器人等医疗场景中展现出巨大潜力。
然而,LLM在临床环境中的部署也引发了一系列伦理问题。训练数据中的偏见可能导致不公平结果,模型“黑箱”特性使得决策过程不透明,患者数据隐私保护面临挑战,且存在生成有害或误导性医疗建议的风险。因此,系统性地审视LLM在医疗领域的伦理影响,对于保障患者安全、促进公平和建立信任至关重要。
LLM是基于神经网络的高级语言处理系统,通过大规模文本训练获得理解和生成类人语言的能力。自2017年Transformer架构提出以来,LLM发展迅速:2018年推出GPT,2019年出现BERT,2020年诞生领域专用模型如BioBERT和ClinicalBERT。2021年GPT-3发布,2022年底ChatGPT的出现推动了医疗领域的广泛实验。2023–2024年间,更多医疗专用模型如LLaMA、GPT-4、SkinGPT-4、MedPALM、MEDITRON、PsyChat、HyperCLOVA等相继涌现,2025年预计将出现更深入的临床整合模型如Gemini 2.0 Pro和GPT-o3-mini。
不同架构的LLM具有各自特点:
GPT模型(如GPT-3.5、GPT-4)基于仅解码器Transformer,常用于起草临床笔记、总结记录和创建决策支持工具,但存在产生“幻觉”(看似合理但错误的医学陈述)的风险,需要人类监督。
BERT家族(包括BioBERT、ClinicalBERT)擅长实体提取、编码和分类,但不生成文本,其嵌入中的潜在偏见可能导致跨人口群体的不公平分类结果。
LLaMA模型提供中等规模的开源架构,支持社区微调,但需要针对医疗上下文精细调整以避免偏误输出。
Claude模型以安全为导向的训练设计,旨在减少有害输出,但其训练数据和安全机制的不透明性给审计和信任校准带来困难。
Bard/Gemini集成于Google生态系统,辅助文献总结和患者常见问题解答,但存在隐私泄露和生成不实信息的风险。
HyperCLOVA针对特定地区语言(如韩语)训练,增强了语言细微差别和文化相关性,但可能排斥或误判其他群体,引发公平性质疑。
LLM在医疗健康领域的主要伦理关切包括:
偏见与公平性:训练数据中的偏差可能加剧健康不平等,需通过去偏技术和多样化数据缓解。
安全与可靠性:模型输出必须可靠且无害,尤其在高风险临床决策中。
透明与可解释性:决策过程应可追溯和解释,以满足监管要求和临床信任。
问责与法律问题:明确责任归属和法律框架,以处理模型错误导致的临床后果。
隐私与安全:患者数据需严格脱敏和加密,遵守HIPAA、GDPR等法规。
错误信息与完整性:防止模型生成误导性内容,维护科学和医疗信息的真实性。
涉及LLM工具的研究需遵循机构审查委员会(IRB)批准或豁免程序,并援引本地指南(如《赫尔辛基宣言》)。常见做法包括敏感数据脱敏、去除个人可识别信息(PII)以及在涉及人类受试者时执行知情同意程序。一些研究还通过与自我倡导顾问委员会合作,确保包容性和神经包容性研究设计。
HIPAA(美国):通过隐私规则、安全规则、泄露通知和“最小必要”原则,强调机构管理而非个人同意。
GDPR(欧盟):以同意为基础,要求数据最小化、目的限制和存储限制,并赋予数据主体访问、更正、删除和携带数据的权利。
其他框架:世界卫生组织的《健康人工智能伦理与治理》、美国FDA的AI/ML医疗设备行动计划以及欧盟委员会的《可信AI伦理指南》共同强调患者安全、公平性、透明度和问责制。
现有文献多集中于LLM在临床医学中的性能评估,但存在评估方法不一致、医学领域LLM代表性不足、伦理分析有限以及文献选择缺乏标准化等问题。例如,Shool等人回顾了761项研究,发现评估参数和模型使用存在异质性;Levkovich和Omar综合了29项关于自杀预防中LLM应用的研究,指出伦理讨论不足和潜在偏见。其他研究如Schwabe等人的METRIC框架、Das等人的安全与隐私挑战综述、Chang等人的评估方法分类等,均缺乏对医疗特定伦理问题的深入探讨。
本综述遵循PRISMA 2020和Kitchenham & Charters(2007)指南,通过四个阶段进行:
探索性研究:识别关键词、制定研究问题并建立搜索策略。
筛选过程:从ACM、PubMed、Springer等数据库中检索316条记录,经去重和筛选后保留146篇研究。
资格与质量评估:使用预定义标准对全文进行评分,保留27项高质量研究。
数据提取与汇编:记录文献基本信息和伦理特定变量,如伦理贡献、应用领域、模型类型和政策框架。
偏见与公平性(n=7):研究涉及检测和减轻临床笔记中的性别偏见(如通过数据增强)、量化Clinical BERT嵌入中的差异(如性别、语言、民族),以及开发像MentaLLaMA这样的开源模型以增强敏感应用中的可解释性。
安全与可靠性(n=4):包括饮食障碍聊天机器人中的用户信任风险、LLM与FHIR标准互操作时的准确性不足,以及通过形式化验证减少幻觉。
透明与可解释性(n=4):集成模型无关的解释技术、代码提示方法以揭示医疗决策逻辑,以及自动化评估可解释AI方法。
问责与法律(n=4):研究强调临床 oversight 的必要性,如GPT-4在急诊分诊中的潜在遗漏、ChatGPT起草病例报告时的历史遗漏,以及放射学和外科中的责任模糊。
隐私与安全(n=3):采用联邦学习与差分隐私结合的方法、去中心化聊天机器人设计以及语音健康助手中的长期记忆管理。
其他伦理问题:包括健康虚假新闻检测、AI驱动错误信息泛滥、个性化健康辅导中的伦理张力,以及参与式设计工作坊推动包容性NLP工具开发。
GPT-4变体出现在10项研究中,ChatGPT(未指定版本)涉及5项,GPT-3.5有3项,BERT家族和LLaMA各4项,Claude涉及4项,Bard/Gemini和HyperCLOVA较少。这表明伦理讨论集中在广泛采用的生成模型上,同时也涵盖多种架构。
临床决策支持(7项)是最常被审视的领域,其次是心理健康(4项)、患者参与(4项)、临床NLP(3项)、数据互操作(2项)、医学教育(2项)和治理(2项)。这表明伦理分析高度聚焦于诊断和治疗工作流程集成。
文献主要索引于ACM Digital Library(16篇)和PubMed(8篇),出版商以ACM(16篇)和JMIR Publications(3篇)为主。2020–2025年间出版物数量显著增长,2024年达52篇,2025年38篇。期刊文章(14篇)和会议论文(13篇)几乎各半,反映该领域重视深度与敏捷性。
当前研究对法律或伦理框架的引用有限(仅9项),缺乏现实世界临床验证、标准化评估方法和长期影响评估。方法异质性阻碍研究比较,表明需加强治理考虑和评估标准化。
提出一个四层框架:
监管层:HIPAA/GDPR合规、WHO/OECD AI伦理指南和生物医学原则。
技术保障:偏见审计、差分隐私、联邦学习和对抗去偏。
人类监督:临床医生参与审查、知情同意程序和参与式设计。
透明与问责:可解释技术、审计追踪和红队测试。
关键优先事项包括:
开发系统化治理模型和监管框架。
强化偏见评估、隐私机制和提示工程。
结合持续监测、临床监督和参与式设计的人类中心保障。
推进可解释性方法和自动评估技术。
推动文化敏感校准、个性化对齐和领域专用微调。
本综述系统识别了LLM在医疗健康中的主要伦理问题,并揭示了当前讨论集中在GPT系列模型及临床决策支持、心理健康等应用领域。通过提出伦理整合框架,为相关方提供了负责任部署的实践指南。然而,研究受限于英语开放获取文献,且未详尽涵盖人类决策伦理的广泛文献,未来工作需要与临床和伦理专家直接合作,加强实证验证和伦理基础。
生物通微信公众号
知名企业招聘