
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基因集分析新突破:GeneAgent通过自主验证大语言模型减少功能注释中的"幻觉"
【字体: 大 中 小 】 时间:2025年07月29日 来源:Nature Methods 36.1
编辑推荐:
本研究针对大语言模型(LLM)在基因集功能注释中存在的"幻觉"问题,开发了基于GPT-4的GeneAgent系统。该系统通过自主交互18个生物医学数据库进行自我验证,在1,106个基因集的测试中显著提高了功能描述的准确性(ROUGE-L从0.239提升至0.310),并在小鼠B2905黑色素瘤细胞系研究中提供了更全面的功能见解。该研究为基因组学知识发现提供了可靠的新工具。
在基因组学研究的浪潮中,基因集分析已成为解析基因功能网络的关键技术。传统方法如基因集富集分析(GSEA)虽然可靠,却受限于预定义数据库的覆盖范围;而新兴的大语言模型(LLM)虽能生成创新假设,却饱受"幻觉"(hallucinations)困扰——那些看似合理实则错误的生物学陈述。这种困境严重阻碍了研究人员从高通量实验数据中挖掘新生物学机制的效率。
美国国立卫生研究院国家医学图书馆的研究团队在《Nature Methods》发表突破性研究,开发出GeneAgent系统。该系统创新性地将GPT-4与18个生物医学数据库相整合,通过生成-验证-修正-总结的四步流程,使LLM能够自主核查其输出的科学性。研究团队首先构建了包含1,106个基因集的测试基准(来自GO、NeST和MSigDB),通过ROUGE和MedCPT语义相似度评估证实,GeneAgent生成的功能描述与金标准相似度显著高于原始GPT-4(76.9%的结果进入相似度前10%百分位)。更令人振奋的是,在小鼠B2905黑色素瘤细胞系衍生的7个新基因集测试中,专家评审确认GeneAgent能准确识别如"呼吸链复合体"等精细功能,为肿瘤异质性研究提供了新视角。
关键技术方法包括:1) 搭建四模块处理流程(生成、自我验证、修正、总结);2) 整合g:Profiler等4个API接口访问18个生物医学数据库;3) 采用MedCPT生物医学文本编码器进行语义相似度评估;4) 使用来自小鼠B2905黑色素瘤细胞系的7个治疗反应相关基因集进行真实案例验证。
研究结果
GeneAgent工作流程
系统核心是自我验证代理(selfVeri-Agent),能自动提取基因符号查询数据库,对15,903个声明进行验证(图1)。验证报告显示84%声明获支持,仅8%被反驳,显著降低幻觉率。这种级联验证结构改进了传统思维链推理,使推理过程可自主验证。

性能基准测试
在1,106个基因集上,GeneAgent的ROUGE-L得分(0.310±0.047)显著优于GPT-4(0.239±0.038)。语义相似度分析显示,GeneAgent产生15个与金标准100%匹配的结果,而GPT-4仅3个(表2)。特别值得注意的是,在相似度70-90%区间内,75.4%的结果实际对应GO术语中的祖先节点功能,显示系统能自动识别更广泛的生物学关联。

黑色素瘤案例研究
在mmu05022(LA-S)基因集中,GeneAgent准确识别出NDUFA10等基因参与线粒体呼吸链复合体I、IV、V的功能(扩展数据图3),而GPT-4则遗漏关键基因。专家评估确认GeneAgent在相关性和全面性上优势明显,为理解肿瘤亚克隆进化提供了新线索。

这项研究开创性地解决了LLM在生物医学应用中的核心痛点。与单纯依赖模型自验证的方法不同,GeneAgent通过建立与领域数据库的动态交互,既保留了LLM的推理创造力,又确保了科学可靠性。其在跨物种(从小鼠到人类)和跨数据源(从文献到实验)的稳健表现,预示着该方法在个性化医疗和罕见病研究中的广阔前景。随着生物医学数据库的持续扩展,这种"人类专家知识+AI推理能力"的融合范式,或将成为下一代生物信息学工具的新标准。
生物通微信公众号
知名企业招聘