
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言模型的本体富集方法:融合词汇、语义和知识网络相似性的概念定位技术
【字体: 大 中 小 】 时间:2025年06月21日 来源:Journal of Biomedical Informatics 4.0
编辑推荐:
本研究针对传统本体富化过程中人工依赖度高、效率低下的问题,创新性地提出结合GPT-4-1201大语言模型与多维度相似性分析的自动化流程。研究人员通过提示链技术从PubMed摘要提取语义三元组,并综合词汇(Jaccard/Levenshtein/LCS)、语义(PubMedBERT嵌入)及知识网络(UMLS)相似性筛选概念,成功将SDoH本体SOHOv1从173个概念扩展至572个,经专家评估Fleiss' κ达0.64。该研究为生物医学领域本体自动化构建提供了可推广的方法论框架。
在生物医学知识爆炸式增长的今天,如何让领域本体像"活体组织"一样持续进化,成为困扰研究者的难题。传统本体扩展高度依赖专家手动添加概念,犹如用绣花针缝制知识网络——不仅效率低下,还容易遗漏新兴术语。以社会健康决定因素(SDoH)领域为例,仅过去四年PubMed相关文献就激增11,437篇,而人工构建的SOHOv1本体仅涵盖173个基础概念,这种"知识赤字"严重制约了健康公平研究的精准性。
为解决这一瓶颈,国外研究团队开发了一套革命性的本体富集管道。该研究创新性地将GPT-4-1201大语言模型作为"知识挖掘机",通过四步提示链技术从41,339篇PubMed摘要中提取384,901个语义三元组。面对海量候选概念,研究者设计了三级过滤系统:先用复合词汇相似度(融合Jaccard/Levenshtein/LCS算法)筛选表面相似概念;再通过PubMedBERT模型计算语义向量相似度;最后借助UMLS知识网络寻找深层关联概念。这种"由浅入深"的筛选策略,犹如为本体安装了三重精密过滤器。
研究结果展现出显著优势:
这项发表于《Journal of Biomedical Informatics》的研究,其突破性在于建立了首个结合LLM与多维相似性分析的本体自动化扩展框架。相比传统方法,该管道不仅能捕捉"经济不稳定"等显性关联,还能发现"家庭拥挤→院内服务"等隐性联系。研究者特别指出,采用自底向上的遍历策略有效避免了复杂继承关系导致的逻辑冲突,这为其他领域本体建设提供了重要启示。
未来,该团队计划将管道拓展至多模态数据整合和动态阈值优化,并探索在电信标准等非医学领域的应用。这项研究犹如为知识工程领域装上了"智能引擎",使本体能够伴随文献增长自动进化,为精准医学、健康政策制定等提供了更强大的知识基础设施。
生物通微信公众号
知名企业招聘