ICONQUER:基于Transformer与知识图谱增强的指令微调上下文感知医学问答模型

《IEEE Access》:ICONQUER: A Transformer-based Instruction-finetuned Context-aware Medical Question Answering Model with Knowledge Graph Augmentation

【字体: 时间:2025年12月11日 来源:IEEE Access 3.6

编辑推荐:

  本研究针对当前医学问答系统在处理复杂查询、上下文感知和可解释性方面的不足,提出了一种新型的ICONQUER模型。该模型创新性地融合了INSTRUCTOR嵌入、知识图谱增强和GPT-3.5生成技术,在MedQA和HotPotQA数据集上的实验表明,其在语义对齐(余弦相似度最高达0.9446)和答案生成质量上均优于现有先进模型,为临床决策支持提供了更可靠的工具。

  
在医疗健康领域,快速准确地获取专业医学信息对临床决策至关重要。然而,现有的医学问答系统往往难以处理复杂的多跳查询,缺乏深度的上下文理解能力,且生成答案的可解释性较差。这些问题限制了此类系统在真实临床环境中的应用价值。为此,来自英国赫尔大学等机构的研究团队在《IEEE Access》上发表了题为"ICONQUER: A Transformer-based Instruction-finetuned Context-aware Medical Question Answering Model with Knowledge Graph Augmentation"的研究论文,提出了一种创新性的解决方案。
为了突破现有技术的局限,研究人员设计了一种名为ICONQUER的新型医学问答架构。该模型的核心创新在于将指令微调的INSTRUCTOR嵌入模型与知识图谱增强技术相结合。具体而言,研究团队采用了多阶段实验设计:首先对包括INSTRUCTOR、E5、BioBERT等在内的多种嵌入模型进行表示能力评估;然后在MedQA数据集上测试答案生成效果;接着引入外部知识源(Wikipedia和BioPortal)进行检索增强;最后通过HotPotQA数据集验证模型的跨领域泛化能力。
技术方法上,研究团队主要采用了以下关键技术:基于INSTRUCTOR模型的指令感知文本嵌入技术,将医学问题与知识库内容转化为向量表示;Qdrant向量数据库与Neo4j知识图谱的双重存储架构,分别支持高效的语义检索和结构化知识表示;GPT-3.5模型作为答案生成器,结合检索到的相关知识片段生成连贯回答;使用余弦相似度、配对距离和ROUGE等多种指标进行综合评估。
模型架构与工作流程
ICONQUER的系统流程包括数据准备与嵌入生成、向量存储、查询嵌入、语义搜索和答案生成五个关键步骤。模型首先将MedQA和HotPotQA数据集以及外部知识源通过INSTRUCTOR模型转化为向量表示,然后存储于Qdrant向量数据库和Neo4j知识图谱中。当用户输入问题时,系统将其嵌入为向量,通过语义搜索检索最相关的知识片段,最后交由GPT-3.5生成答案。
嵌入模型性能比较
实验结果显示,指令微调的嵌入模型在语义对齐方面表现最佳。单一INSTRUCTOR模型在MedQA训练集上获得了0.9446的余弦相似度,而INSTRUCTOR+E5组合在保持高相似度(0.9187)的同时实现了最低的配对距离(0.2850),表明该组合在语义准确性和几何紧凑性之间取得了最佳平衡。传统嵌入方法如Word2Vec和FastText的表现远逊于Transformer-based方法,凸显了现代嵌入技术的优势。
答案生成质量评估
在MedQA测试集上,INSTRUCTOR+GPT-3.5配置达到了0.9387的余弦相似度,而INSTRUCTOR+JINA组合在ROUGE指标上表现最佳(F值0.2792)。值得注意的是,知识图谱的引入虽然略微降低了余弦相似度得分,但显著提高了答案的召回率,表明外部知识的融入增强了答案的覆盖范围。
外部知识融合效果
研究团队测试了Wikipedia和BioPortal作为外部知识源的效果。结果显示,知识增强虽然使嵌入空间的余弦相似度有所下降(INSTRUCTOR从0.9387降至0.8550),但显著改善了ROUGE召回率指标,证明模型能够更好地覆盖参考答案的内容。这种权衡表明外部知识增强更侧重于提高答案的广度而非表面形式的相似性。
跨领域泛化能力
在HotPotQA数据集上的测试进一步验证了ICONQUER的泛化能力。INSTRUCTOR+GPT-3.5配置在跨领域任务中保持了0.914的余弦相似度,明显优于BioBERT(0.889)和BERT-Large(0.728)等基线模型,证明其在处理需要多跳推理的复杂问题时具有显著优势。
研究结论表明,ICONQUER通过整合指令微调嵌入和知识图谱增强技术,显著提升了医学问答系统在语义理解、上下文感知和可解释性方面的性能。尽管外部知识源的引入带来了一定的精度-召回权衡,但这种权衡在临床应用中是可接受的,因为高精度对于确保答案的可靠性更为关键。该研究的创新点在于提出了一种模块化、可扩展的架构,能够根据实际需求灵活配置功能模块,为未来医学问答系统的发展提供了重要参考。
未来研究方向包括整合更多结构化生物医学知识库(如SNOMED CT、UMLS)、优化Transformer架构以高效利用知识图谱嵌入,以及开发多语言支持功能。这些改进将进一步提升ICONQUER在多样化临床环境中的实用价值,推动人工智能在医疗决策支持中的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号