生成式AI辅助罕见病医疗行为本体构建:AutoMAxO半自动化工作流的创新应用

【字体: 时间:2025年06月13日 来源:Bioinformatics Advances 2.4

编辑推荐:

  本研究针对罕见病医疗行为本体(MAxO)人工标注效率低下的问题,开发了基于大语言模型(LLM)的半自动化工作流AutoMAxO。通过整合GPT-4、SPIRES框架和OntoGPT工具,系统从37种罕见病文献中提取15,676条候选标注,经专家验证后新增958条MAxO-HPO-MONDO三元组注释,显著提升生物本体标注效率,为罕见病诊疗知识图谱构建提供新范式。

  

罕见病诊疗领域长期面临知识碎片化的挑战。尽管全球有超过10,000种罕见病影响3亿患者,但仅不足5%拥有FDA批准的治疗方案。临床医生和研究者需要从海量文献中筛选有效干预措施,而传统人工标注医学行为本体(Medical Action Ontology, MAxO)的方法效率低下——过去五年仅完成438条标注。如何快速构建结构化诊疗知识体系,成为改善罕见病临床决策的关键科学问题。

由美国杰克逊基因组医学实验室、劳伦斯伯克利国家实验室等机构组成的跨学科团队,在《Bioinformatics Advances》发表创新性解决方案。研究团队开发了AutoMAxO工作流,首次将大语言模型(LLM)与生物本体工程深度融合。该系统通过PubMedBERT文献筛选、GPT-4驱动的SPIRES语义解析、OntoGPT术语 grounding(概念锚定)三级处理,实现了从文献摘要到标准化本体标注的半自动化转换。特别值得注意的是,工作流创新性地采用MAxO模板规范LLM输出,通过OAK工具包和CurateGPT向量匹配解决术语映射难题,最终通过JavaFX可视化界面实现专家高效复核。

方法学亮点
研究团队采用多模态技术路线:1) 基于NCBI E-Utilities和PubTator 3.0 API构建文献检索管道;2) 微调PubMedBERT实现文献初筛(F1-score 90.3%);3) 对比GPT-4、GPT-4o Mini和LLaMA 4性能后选择GPT-4作为主要解析模型;4) 开发Automaxoviewer可视化工具支持人工校验,最终标注数据通过POET平台集成至MAxO数据库。

结果解析
文献处理规模
系统处理37种罕见病(如Wilson病、脊髓性肌萎缩症等)的6,299篇摘要,初始提取15,676条三元组,经PubMedBERT过滤后保留493篇高相关文献。

术语 grounding效率
MONDO疾病术语匹配率达65%,显著高于HPO表型术语(24%)和MAxO医疗行为术语(12%),反映治疗描述在文献中的表述多样性。

专家验证结果
经Peter N. Robinson团队复核,最终整合958条新注释,涉及294个MAxO术语(如"铜螯合剂治疗[MAXO:0001224]")和269个HPO表型,使MAxO标注库规模扩大2.2倍。典型案例包括:镰状细胞贫血(MONDO:0011382)的"基因治疗[MAXO:0001001]→treats→疾病本体"关联。

技术对比优势
GPT-4在提取完整三元组数量上显著优于LLaMA 4(p<0.05),且非锚定术语减少31%。AutoMAxO单病种处理时间压缩至1-2小时,较传统方法效率提升显著。

结论与展望
该研究开创性地证明LLM在生物本体工程中的实用价值:1) 通过SPIRES框架实现多本体协同标注;2) 构建首个罕见病诊疗行为知识提取专用工作流;3) 为MAxO、HPO、MONDO的协同扩展提供可持续方案。局限性在于当前仅处理摘要文本,且需医师单盲复核。未来可扩展至全文挖掘,并探索Biolink模型支持的知识图谱推理。这项工作不仅加速了罕见病诊疗知识结构化进程,更为生物医学本体标注提供了可推广的AI增强范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号