
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SyRACT框架:融合检索增强生成与思维链的零样本生物医学文档级关系抽取新方法
【字体: 大 中 小 】 时间:2025年06月21日 来源:Bioinformatics 4.4
编辑推荐:
为解决大型语言模型(LLMs)在生物医学文档级关系抽取(BioDocRE)任务中存在的幻觉生成、推理能力不足及结果可解释性差等问题,大连民族大学团队提出SyRACT框架,通过任务重构、PubMed外部知识检索和思维链(CoT)增强,在CDR/GDA/ADE数据集上F1值最高提升41%,为零样本生物医学信息挖掘提供了创新解决方案。
在生物医学信息爆炸式增长的今天,如何从海量文献中精准提取实体间复杂关系(如药物-疾病关联、基因-疾病相互作用)成为知识挖掘的核心挑战。传统文档级关系抽取(DocRE)方法面临三重困境:基于预训练模型的方法需要大量标注数据微调,难以适应生物医学领域的长尾关系类型;大型语言模型(LLMs)虽展现强大潜力,却受困于专业领域幻觉生成(如虚构不存在的关系)和"黑箱"推理过程;现有技术框架往往孤立处理精度与可解释性问题,缺乏系统性解决方案。
大连民族大学计算机科学与工程学院团队在《Bioinformatics》发表的研究中,创新性地提出SyRACT(Synergistic RAG and CoT)框架。该研究通过三大突破性设计:将关系抽取重构为问答任务以适配LLMs处理逻辑,基于PubMed构建动态检索知识库抑制幻觉,定制生物医学CoT推理链提升可解释性,在零样本设定下实现性能飞跃。实验表明,相较传统提示方法,该框架在化学-疾病(CDR)、基因-疾病(GDA)和药物不良反应(ADE)数据集上F1值分别提升11.04%、9.10%和41%,尤其对复杂跨句关系的识别准确率显著提高。
关键技术方法包含:(1)基于MeSH术语系统的PubMed文献检索策略,采用段落/句子/滑动窗口三重分割构建外部知识库;(2)使用all-MiniLM-L6-v2模型计算语义相似度,筛选最相关文本块;(3)设计四步CoT指令(概念定义-文档理解-实体关联-决策输出),通过3-5个未标注样本优化推理链;(4)GPT-3.5-turbo作为基础LLM,输出标准化为"Yes/No"格式。
【任务重构】
将传统分类任务转化为问答范式,如"化学物质A是否诱发疾病B?",使LLMs更聚焦实体间因果判断。消融实验显示,该设计使F1值较标准提示提升11.04%。
【检索增强】
混合分割策略(段落+句子+滑动窗口)的知识块检索效果最佳,较单一方法提升12% F1值。图5显示,当引入低相似度文本块时性能反降0.05%,验证精准知识注入的重要性。
【思维链增强】
如图8案例所示,CoT使模型逐步分析5-羟色胺与心肌梗死的关联:先明确"化学诱导疾病"定义,再交叉验证查询文档与知识块证据,最终得出否定结论。该过程使复杂任务推理透明度显著提升。
【跨数据集验证】
在ADE语料库上,SyRACT的F1值达96%,较UMLS知识增强方法提升34%。表4显示,该框架即使使用GPT-3.5-turbo也超越GPT-4-32k基线12%,体现高效资源利用率。
该研究的核心价值在于首次实现RAG与CoT在BioDocRE任务中的协同应用:通过PubMed权威知识校正LLMs的领域偏差,借助结构化推理链破解"黑箱"难题。图7对比显示,标准提示在简单任务中正确识别"普萘洛尔致生长迟缓",却在复杂文本中误判;而SyRACT通过分步验证,准确区分药物直接作用与混杂因素。未来可扩展至生物医学实体识别、临床问答等场景,为构建可信赖的医疗AI系统提供新范式。
生物通微信公众号
知名企业招聘