基于大语言模型的本体富集方法:融合词汇、语义和知识网络相似性的概念定位技术

【字体: 时间:2025年06月21日 来源:Journal of Biomedical Informatics 4.0

编辑推荐:

  本研究针对传统本体富化过程中人工依赖度高、效率低下的问题,创新性地提出结合GPT-4-1201大语言模型与多维度相似性分析的自动化流程。研究人员通过提示链技术从PubMed摘要提取语义三元组,并综合词汇(Jaccard/Levenshtein/LCS)、语义(PubMedBERT嵌入)及知识网络(UMLS)相似性筛选概念,成功将SDoH本体SOHOv1从173个概念扩展至572个,经专家评估Fleiss' κ达0.64。该研究为生物医学领域本体自动化构建提供了可推广的方法论框架。

  

在生物医学知识爆炸式增长的今天,如何让领域本体像"活体组织"一样持续进化,成为困扰研究者的难题。传统本体扩展高度依赖专家手动添加概念,犹如用绣花针缝制知识网络——不仅效率低下,还容易遗漏新兴术语。以社会健康决定因素(SDoH)领域为例,仅过去四年PubMed相关文献就激增11,437篇,而人工构建的SOHOv1本体仅涵盖173个基础概念,这种"知识赤字"严重制约了健康公平研究的精准性。

为解决这一瓶颈,国外研究团队开发了一套革命性的本体富集管道。该研究创新性地将GPT-4-1201大语言模型作为"知识挖掘机",通过四步提示链技术从41,339篇PubMed摘要中提取384,901个语义三元组。面对海量候选概念,研究者设计了三级过滤系统:先用复合词汇相似度(融合Jaccard/Levenshtein/LCS算法)筛选表面相似概念;再通过PubMedBERT模型计算语义向量相似度;最后借助UMLS知识网络寻找深层关联概念。这种"由浅入深"的筛选策略,犹如为本体安装了三重精密过滤器。

研究结果展现出显著优势:

  1. 语义三元组提取:GPT-4-1201平均每篇摘要生成14个三元组,经去重后获得139,576个高质量候选概念,远超SemMedDB的覆盖范围。
  2. 概念富集效果:SOHOv1本体规模扩大230%,新增399个概念中57%通过UMLS知识网络匹配发现,验证了多源知识融合的价值。
  3. 质量验证:人类专家对100个随机三元组的评估显示Fleiss' κ达0.64,HermiT推理器确认本体逻辑一致性,证明自动化流程的可靠性。

这项发表于《Journal of Biomedical Informatics》的研究,其突破性在于建立了首个结合LLM与多维相似性分析的本体自动化扩展框架。相比传统方法,该管道不仅能捕捉"经济不稳定"等显性关联,还能发现"家庭拥挤→院内服务"等隐性联系。研究者特别指出,采用自底向上的遍历策略有效避免了复杂继承关系导致的逻辑冲突,这为其他领域本体建设提供了重要启示。

未来,该团队计划将管道拓展至多模态数据整合和动态阈值优化,并探索在电信标准等非医学领域的应用。这项研究犹如为知识工程领域装上了"智能引擎",使本体能够伴随文献增长自动进化,为精准医学、健康政策制定等提供了更强大的知识基础设施。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号