医学问答数据集MedAESQA：支持证据溯源的大语言模型评估新基准

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Data》：A Dataset of Medical Questions Paired with Automatically Generated Answers and Evidence-supported References

【字体：大中小】 时间：2025年06月20日 来源：Scientific Data 5.8

编辑推荐：

　　本研究针对大语言模型(LLM)在医疗问答中可能生成无事实依据答案的问题，开发了首个支持证据溯源的医学问答数据集MedAESQA。该数据集包含40个真实医学问题及30组人机生成答案，通过专家标注实现了对答案准确性和文献支持度的多维度评估，为开发可靠的检索增强生成(RAG)和追溯归因(retrofit attribution)技术提供了关键基准。

在人工智能技术迅猛发展的今天，大型语言模型(LLM)已能生成语法流畅、内容相关的医学问答答案，但这种能力犹如一把双刃剑——模型可能产生看似合理实则缺乏证据支持的"幻觉答案"，这在关乎生命健康的医疗领域尤为危险。美国国立卫生研究院国家医学图书馆的Deepak Gupta、Davis Bartels和Dina Demner-Fushman团队在《Scientific Data》发表的研究，正是为解决这一关键问题而开展。

当前医疗AI面临的核心矛盾在于：传统问答数据集如MultiMedQA仅关注问题-答案配对，却无法验证答案的事实依据。随着LLM在零样本(zero-shot)场景下的应用扩展，研究者发现模型可能生成具有误导性甚至危害性的回答。更令人担忧的是，研究表明LLM在处理普通用户提问时表现更差，且常无法引用相关文献支持其论断。这种无依据陈述已成为医疗AI应用的主要障碍。

为解决这一问题，研究团队开发了MedAESQA（医学可归因与证据支持的问答）数据集。该数据集创新性地构建了一个包含40个真实医学问题的评估框架，每个问题配备专家精心编写的标准答案和30组由不同LLM生成的回答。特别重要的是，每个答案陈述都要求与支持其的PubMed摘要建立明确关联，并通过临床专家团队进行多维度人工评估，包括陈述准确性、必要性和文献支持度等指标。

研究采用了系统化的数据构建方法：首先从MedlinePlus服务筛选40个高频医学问题，由医学信息专家标注问题框架（包括主题、叙述和语义角色）。专家团队通过检索PubMed生成标准答案，确保每个陈述都有PMID支持。为评估自动化系统表现，研究组织TREC 2024社区评估，收集30种不同方法生成的答案，涵盖检索增强生成(RAG)、追溯归因等多种技术路线。最终由Centaur Labs的临床专家团队对答案质量、文献支持度等进行共识评估。

关键技术方法包括：(1)基于BM25和神经检索模型(如monoT5、ANCE)的文献检索与重排序；(2)使用Mistral-7B、Llama3、GPT-4等开源和闭源LLM生成答案；(3)开发多维度评估指标，包括答案准确性、完整性、冗余度、引用覆盖率和支持率等；(4)构建信息块(nugget)评估体系，实现原子级事实核查；(5)采用Sentence Transformer和SimCSE进行答案语义聚类分析。

背景与摘要部分阐明了研究的必要性。随着LLM在医疗问答中的应用扩展，其生成的答案可能出现事实性错误，但现有数据集无法有效评估答案的真实性。MedAESQA通过构建支持证据溯源的数据集，填补了这一关键空白。数据集包含真实医学问题、专家答案和LLM生成答案，每个陈述都链接到支持文献，并经过临床专家验证。

方法部分详细描述了数据构建流程。问题选自MedlinePlus用户提问，由专家标注语义框架和医学分类。专家通过PubMed检索生成标准答案，确保每个陈述都有文献支持。机器学习答案通过TREC 2024评估收集，采用多样化技术路线生成。评估体系包含答案质量、文献支持度等多维度指标。

数据记录显示数据集包含40个问题的1,200个机器生成答案，共5,162个答案句子和7,651条专家标注的证据摘录。统计分析表明，91.7%的机器答案被专家判定为可接受，77%的答案陈述获得文献支持。

技术验证部分展示了30种方法的性能比较。在答案准确性方面，26种方法超过92%准确率；最佳方法(M17)的答案精确度达90.23%。引用质量评估显示，最佳方法(M1)的引用覆盖率达91.92%，支持率72.34%。值得注意的是，19种方法实现了零有害内容生成，显示出现有技术的安全性。

专家答案与机器答案对比分析发现，基于语义相似度的评估中，方法M11和M20表现最佳，BERTScore分别达0.8514和0.8517。在引用层面，方法M1的F值最高(13.63)，显示其引用模式最接近专家标准。

研究结论指出，MedAESQA是首个专门用于评估医学问答中事实归因的数据集，其创新性体现在：(1)真实用户问题的代表性；(2)专家标注的细粒度评估框架；(3)支持多种技术路线的评估基准。该数据集对开发可靠的医疗AI系统具有重要意义，特别是在检索增强生成(RAG)和追溯归因技术方面。未来工作将扩展至全文文献支持，并持续更新问题集合。

这项研究为医疗AI的可信发展提供了关键基础设施。通过建立标准化的证据支持评估框架，不仅能够促进更可靠的问答系统开发，也为监管机构评估医疗AI安全性提供了科学依据。数据集已通过Open Science Framework公开，配套代码发布于GitHub平台，将推动该领域的开放协作研究。

联系信箱：

粤ICP备09063491号

热点排行