生成式人工智能(GenAI)在医疗健康领域的应用框架及风险评估

【字体: 时间:2025年05月22日 来源:npj Digital Medicine 12.4

编辑推荐:

  针对医疗领域 GenAI 应用缺乏统一指导的问题,研究人员通过圆桌会议和专家访谈,构建了评估 GenAI 医疗应用的框架,明确四大原则(如匹配 GenAI 优势、完善评估框架等)及四类风险(模型风险、数据局限等),为其伦理合规应用提供关键指引。

  
在数字化浪潮席卷医疗行业的当下,生成式人工智能(Generative Artificial Intelligence, GenAI)正以前所未有的速度渗透至临床诊疗、健康管理等各个环节。自 2022 年 ChatGPT 问世以来,大语言模型(Large Language Models, LLMs)如 GPT-4、Claude 等在医疗领域的应用探索呈爆发式增长,从病历摘要生成、医学文献翻译到智能问诊机器人,其潜在价值备受瞩目。然而,这一新兴技术在医疗场景中的应用仍面临诸多挑战:缺乏全球统一的评估标准、伦理风险与潜在危害尚不明确、在低中收入国家(Low and Middle-Income Countries, LMICs)的落地存在数据鸿沟与基础设施短板等。如何在确保安全性与公平性的前提下,最大化 GenAI 的健康效益,成为全球医疗界与科技界亟待解决的核心命题。

为系统解答上述问题,斯坦福大学数字健康中心(Stanford Center for Digital Health)联合牛津大学等机构的研究人员,开展了一项聚焦 GenAI 医疗应用的跨学科研究。团队通过两场圆桌会议(斯坦福大学与内罗毕站)及 54 人次的半结构化专家访谈(涵盖学术、医疗实施、基金资助、卫生系统等多领域专家),整合多方视角,构建了首个针对 GenAI 医疗应用的评估框架,并识别关键风险与应对策略。研究成果发表于《npj Digital Medicine》,为全球范围内 GenAI 的合规、高效应用提供了重要参考。

研究方法概览


研究采用混合研究方法,首先于 2024 年 10 月在斯坦福大学举办首场圆桌会议,围绕 GenAI 在 LMICs 的健康改善案例、效果评估指标及风险 mitigation 展开讨论,访谈内容通过 NVIVO 12 软件进行归纳主题分析。随后,基于初步结论设计半结构化访谈提纲,于同年 11-12 月对 11 名医疗实施者、3 名资助者、2 名技术促进者及 7 名卫生系统专家进行深度访谈。最后,在内罗毕全球数字健康论坛期间召开第二场圆桌会议,就初步框架达成共识,并通过目的性抽样补充 3 名专家意见,最终形成包含四大原则与四类风险的完整框架。

研究结果与核心框架


一、四大核心应用原则


  1. 匹配 GenAI 优势场景
    LLMs 的成功应用需紧密结合其技术特性。研究指出,LLMs 在医学文本摘要(如将冗长指南转化为临床可用的简短摘要)、患者信息分类(如区分医疗与行政咨询)、数据提取(从病历中提取诊断与用药信息)、多语言翻译(将临床文档转化为患者易懂的科普内容)及智能对话(如实时健康咨询聊天机器人)等任务中表现显著优于传统 AI 技术。但需注意其局限性,例如在需要12高精度逻辑推理或实时数据更新的场景中需谨慎应用。

  2. 构建全周期评估框架
    现有健康结局指标(如发病率、死亡率)虽适用于 GenAI 工具评估,但缺乏专门针对生成式技术的标准化基准。研究强调,需在设计阶段明确干预目标与评估指标,例如针对 LLM 驱动的问答工具,需重点监测回答正确率、完整性、医患交互体验(如语气共情度)及成本效益比。鉴于 GenAI 算法的动态进化34特性,评估需采用 “持续监测 + 随机对照试验(RCT)补充” 的混合模式,平衡证据强度与实施时效性。

  3. 权衡安全性与创新效益
    研究援引 WHO “不伤害原则”,强调 GenAI 应用需优先确保患者安全,例如通过 “人在回路(Human-in-the-Loop)” 机制对高风险场景(如临床决策支持)实施人工审核。同时,需正视技术创新的必要性5:非洲地区预计 2030 年将面临 610 万医护人员缺口,GenAI 在远程诊疗、健康科普等领域的应用可能成为弥补资源不足的关键手段。全球监管格局方面,欧盟《人工6智能法案》(2024 年 8 月生效)提供了首个综合性立法范本,但 LMICs 仍面临监管资源匮乏、政策聚焦战略规划而非强制规范的挑战。

  4. 强化透明性7与知识共享
    透明性贯穿技术全生命周期,包括算法训练数据来源、利益冲突披露及阴性结果发表。研究推荐采用《CONSORT-AI 扩展版》规范临床试验报告,并倡导建立跨机构的 “实时学习论坛”,共享 GenAI 试点项目的阶段性数据。政府主导的跨部门协作(如卫生8、科技、教育领域联动)是推动系统性变革的关键。


二、四类关键风险及应对策略


  1. 模型固有风险

    • 内容幻觉与准确性风险:LLMs 可能生成看似合理但错误的信息(如错误用药建议),需通过 “检索增强生成(Retrieval-Augmented Generation, RAG)” 技术限定回答依据,结合临床指南数据库降低误差,并设定不同场景的可接受错误率(如医疗咨询需接近零容忍)。
    • 成本与环910境负担:LLMs 训练与运行需消耗大量算力,非洲语言因 “标记密度高” 导致处理成本显著高于英语。解决方案包括开发本地化小模型(如开源斯瓦希里语模型 UlizaLlama)、优化算法能效及共享区域基础设施。
    • 数据隐私1112风险:GenAI 聊天机器人可能收集敏感健康信息(如性健康咨询),需通过同态加密、联邦学习等隐私增强技术(Privacy-Enhancing Technologies, PETs)保护数据,同时审查供应商的数据使用政策。

  2. 训练数据局1314限性
    当前 GenAI 模型主要基于西方语言与文化背景数据训练,导致 LMICs 常见健康问题(如热带病、性别相关健康需求)被忽视。应对措施包括:投入资源构建多语言数据集(如非洲语言项目 LelapaAI)、开发区域特异性评估基准(如涵盖非洲疾病负担的 AfriMed-QA 数据集),并在工具部署前进行本地化数据验证。

  3. 数字鸿沟与1516基础设施短板
    全球数字不平等显著:2022 年非洲仅有 36% 人口接入宽带,女性使用移动互联网的概率比男性低 15%-32%。即便模型性能优异,缺乏基础医17疗设施(如 HPV 疫苗库存)或数字素养仍会导致应用失效。研究建议将 GenAI 部署与基础医疗建设(如基层诊所数字化)相结合,通过 “数字就绪度评估” 工具(如全球数字健康监测平台)指导资源分配。

  4. 社会偏见放1819大风险
    训练数据或算法设计者的隐性偏见可能加剧社会不平等,例如在性别歧视严重地区,LLM 可能强化语言中的性别刻板印象。应对策略包括:开发偏见检测算法、建立伦理治理框架(如参照 STANDING Together 倡议),并警惕恶意行为者滥用技术传播虚假医疗信息。


研究结论与意2021


本研究构建的 “四原则 - 四风险” 框架为医疗领域 GenAI 的应用提供了可操作的路线图:通过技术适配、全周期评估、跨部门协作及伦理治理,平衡创新驱动与风险防控。尤其对 LMICs 而言,框架强调本地化数据开发、基础设施协同升级及公平性考量,为解决全球医疗资源分配不均提供了新视角。随着 GenAI 技术的快速迭代,研究团队呼吁建立 “技术 - 伦理 - 政策” 动态协同机制,确保其成为普惠全球的健康工具,而非加剧分化的催化剂。该研究不仅为学术界与产业界提供了方法论参考,更对政策制定者在跨学科监管、国际合作等方面具有重要指导价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号