
-
生物通官微
陪你抓住生命科技
跳动的脉搏
医疗领域生成式人工智能的可重复评估:一种融入临床专家参与的方法
【字体: 大 中 小 】 时间:2025年06月17日 来源:JAMIA Open 2.5
编辑推荐:
本研究针对医疗领域生成式人工智能(GAI)系统缺乏标准化评估方法的现状,开发了一个包含5个维度的临床专家参与评估框架。研究人员通过评估ClinicalKey AI系统614个临床查询响应,证实该方法能有效量化GAI在查询理解(98.6%正确率)、响应准确性(95.5%)和临床安全性(0.47%潜在危害)等方面的表现,为医疗GAI系统的可靠评估提供了可重复的方法学框架。
在医疗健康领域,生成式人工智能(GAI)技术正以前所未有的速度改变着临床决策支持、医学教育和医疗管理的方式。然而,这些系统在提供看似权威的医学建议时,可能隐藏着"幻觉"(hallucination)风险——即生成缺乏事实依据或与现有证据相矛盾的内容。更令人担忧的是,目前医疗领域缺乏标准化的方法来评估这些AI系统的可靠性,使得医疗机构在采用这些技术时面临巨大挑战。正是这种评估方法的缺失,促使Elsevier健康市场部门的研究团队开展了一项开创性研究。
这项发表在《JAMIA Open》的研究开发了一个包含5个维度的评估框架,专门用于评估医疗GAI系统的性能。研究人员选择了ClinicalKey AI作为案例研究对象,这是一个采用检索增强生成(RAG)技术的临床参考工具,能够从经过筛选的医学文献库中提取信息生成摘要回答。研究团队构建了包含633个临床问题的评估集,这些问题来自真实用户查询、标准测试集和专科专家精心设计的问题,覆盖了美国医学专业委员会(ABMS)排名前10的专科领域。
研究采用了多项关键技术方法:1)开发5维度评估框架(响应有用性、查询理解、响应正确性、响应完整性和潜在临床危害);2)招募41名获得委员会认证的医师和药师作为主题专家(SME)进行评估;3)采用多数表决和改良德尔菲法解决评估分歧;4)构建包含用户查询、基准问题和专家设计问题的多样化评估集;5)实施内部临床专家小组审查机制,对所有被标记为潜在有害的响应进行二次验证。
研究结果显示,在614个产生响应的查询中,专家完成了426个查询-响应对的评估。评估框架的五个维度表现出色:响应正确性达到95.5%,查询理解率为98.6%,94.4%的响应被评为有用。特别值得注意的是,仅有0.47%的响应(2例)被评定为具有潜在临床危害。在评估过程中,60.6%的案例在两位专家评估中达成一致,其余案例通过第三位专家评审或共识讨论解决。评估框架的有效性在完整性维度上表现稍弱,90.9%的响应被评为完整或全面。
在讨论部分,研究人员指出这项研究的主要贡献在于提供了一个可重复的、临床专家参与的评估方法,能够系统评估医疗GAI系统的性能。该方法结合了客观性能指标与定性临床判断,特别强调了患者安全这一核心考量。研究也揭示了评估过程中的挑战,特别是在处理开放式响应时的主观性差异,以及专家对"潜在危害"判断标准的不一致性。这些发现为未来医疗GAI评估研究提供了重要参考。
这项研究的重要意义在于填补了医疗GAI评估方法学的关键空白。通过详细记录评估过程,研究为医院、研究机构和科技公司提供了一套清晰的、可重复的操作指南,用于判断医疗AI系统是否足够可靠以应用于实际临床环境。随着欧盟人工智能法案等监管框架的出台,这类标准化评估方法将变得越来越重要,有助于在利用GAI技术优势的同时,确保患者安全得到充分保障。
生物通微信公众号
知名企业招聘