医学问答数据集MedAESQA:支持证据溯源的大语言模型评估新基准

《Scientific Data》:A Dataset of Medical Questions Paired with Automatically Generated Answers and Evidence-supported References

【字体: 时间:2025年06月20日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对大语言模型(LLM)在医疗问答中可能生成无事实依据答案的问题,开发了首个支持证据溯源的医学问答数据集MedAESQA。该数据集包含40个真实医学问题及30组人机生成答案,通过专家标注实现了对答案准确性和文献支持度的多维度评估,为开发可靠的检索增强生成(RAG)和追溯归因(retrofit attribution)技术提供了关键基准。

  

在人工智能技术迅猛发展的今天,大型语言模型(LLM)已能生成语法流畅、内容相关的医学问答答案,但这种能力犹如一把双刃剑——模型可能产生看似合理实则缺乏证据支持的"幻觉答案",这在关乎生命健康的医疗领域尤为危险。美国国立卫生研究院国家医学图书馆的Deepak Gupta、Davis Bartels和Dina Demner-Fushman团队在《Scientific Data》发表的研究,正是为解决这一关键问题而开展。

当前医疗AI面临的核心矛盾在于:传统问答数据集如MultiMedQA仅关注问题-答案配对,却无法验证答案的事实依据。随着LLM在零样本(zero-shot)场景下的应用扩展,研究者发现模型可能生成具有误导性甚至危害性的回答。更令人担忧的是,研究表明LLM在处理普通用户提问时表现更差,且常无法引用相关文献支持其论断。这种无依据陈述已成为医疗AI应用的主要障碍。

为解决这一问题,研究团队开发了MedAESQA(医学可归因与证据支持的问答)数据集。该数据集创新性地构建了一个包含40个真实医学问题的评估框架,每个问题配备专家精心编写的标准答案和30组由不同LLM生成的回答。特别重要的是,每个答案陈述都要求与支持其的PubMed摘要建立明确关联,并通过临床专家团队进行多维度人工评估,包括陈述准确性、必要性和文献支持度等指标。

研究采用了系统化的数据构建方法:首先从MedlinePlus服务筛选40个高频医学问题,由医学信息专家标注问题框架(包括主题、叙述和语义角色)。专家团队通过检索PubMed生成标准答案,确保每个陈述都有PMID支持。为评估自动化系统表现,研究组织TREC 2024社区评估,收集30种不同方法生成的答案,涵盖检索增强生成(RAG)、追溯归因等多种技术路线。最终由Centaur Labs的临床专家团队对答案质量、文献支持度等进行共识评估。

关键技术方法包括:(1)基于BM25和神经检索模型(如monoT5、ANCE)的文献检索与重排序;(2)使用Mistral-7B、Llama3、GPT-4等开源和闭源LLM生成答案;(3)开发多维度评估指标,包括答案准确性、完整性、冗余度、引用覆盖率和支持率等;(4)构建信息块(nugget)评估体系,实现原子级事实核查;(5)采用Sentence Transformer和SimCSE进行答案语义聚类分析。

背景与摘要部分阐明了研究的必要性。随着LLM在医疗问答中的应用扩展,其生成的答案可能出现事实性错误,但现有数据集无法有效评估答案的真实性。MedAESQA通过构建支持证据溯源的数据集,填补了这一关键空白。数据集包含真实医学问题、专家答案和LLM生成答案,每个陈述都链接到支持文献,并经过临床专家验证。

方法部分详细描述了数据构建流程。问题选自MedlinePlus用户提问,由专家标注语义框架和医学分类。专家通过PubMed检索生成标准答案,确保每个陈述都有文献支持。机器学习答案通过TREC 2024评估收集,采用多样化技术路线生成。评估体系包含答案质量、文献支持度等多维度指标。

数据记录显示数据集包含40个问题的1,200个机器生成答案,共5,162个答案句子和7,651条专家标注的证据摘录。统计分析表明,91.7%的机器答案被专家判定为可接受,77%的答案陈述获得文献支持。

技术验证部分展示了30种方法的性能比较。在答案准确性方面,26种方法超过92%准确率;最佳方法(M17)的答案精确度达90.23%。引用质量评估显示,最佳方法(M1)的引用覆盖率达91.92%,支持率72.34%。值得注意的是,19种方法实现了零有害内容生成,显示出现有技术的安全性。

专家答案与机器答案对比分析发现,基于语义相似度的评估中,方法M11和M20表现最佳,BERTScore分别达0.8514和0.8517。在引用层面,方法M1的F值最高(13.63),显示其引用模式最接近专家标准。

研究结论指出,MedAESQA是首个专门用于评估医学问答中事实归因的数据集,其创新性体现在:(1)真实用户问题的代表性;(2)专家标注的细粒度评估框架;(3)支持多种技术路线的评估基准。该数据集对开发可靠的医疗AI系统具有重要意义,特别是在检索增强生成(RAG)和追溯归因技术方面。未来工作将扩展至全文文献支持,并持续更新问题集合。

这项研究为医疗AI的可信发展提供了关键基础设施。通过建立标准化的证据支持评估框架,不仅能够促进更可靠的问答系统开发,也为监管机构评估医疗AI安全性提供了科学依据。数据集已通过Open Science Framework公开,配套代码发布于GitHub平台,将推动该领域的开放协作研究。

相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号