优化 SemRep 助力大规模生物医学文献疾病因果关系精准挖掘

【字体: 时间:2025年03月19日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  为提升 SemRep 疾病因果关系提取准确性,研究人员构建语义谓词词汇表,发现多种因果关系,助力医学研究。

  在当今生物医学领域,随着科研的飞速发展,生物医学文献数量呈爆炸式增长。这些文献犹如一座巨大的知识宝库,蕴藏着无数关于疾病机制、治疗方法等宝贵信息。然而,这座宝库的知识结构复杂、关联交错,科研人员想要快速从中挖掘出有价值的信息,犹如大海捞针。比如,在探索疾病之间的因果关系时,传统方式依赖人工查阅大量文献,不仅效率低下,还容易遗漏关键信息。
在此背景下,自然语言处理(NLP)技术成为了破局的希望。它能够从海量的生物医学文献中提取概念和关系,并转化为可计算的语义表示,为生物医学知识发现、临床决策等提供有力支持。其中,语义知识表示(SemRep)工具备受关注,它能从生物医学文本中提取多种语义关系,包括 “CAUSES”(因果关系),还能将生物医学实体名称规范化。但 SemRep 并非完美无缺,其语义关系提取存在一定错误率,主要原因在于缺乏对语义谓词的准确识别,这严重影响了其在疾病因果关系提取中的准确性,也给后续的医学研究带来了阻碍。

为了攻克这一难题,中国科学院成都文献情报中心、中国科学院大学经济与管理学院信息资源管理系以及中国医学科学院医学信息研究所的研究人员开展了一项极具意义的研究。他们致力于优化 SemRep 工具在疾病因果关系提取方面的性能,通过构建精确表达疾病因果关系的语义谓词词汇表,实现从大规模生物医学文献中自动提取疾病因果关系知识。该研究成果发表在《BMC Medical Informatics and Decision Making》上,为生物医学研究领域带来了新的突破。

在研究方法上,研究人员主要采用了以下关键技术:首先,从 SemMedDB 数据库获取截至 2021 年 12 月的完整数据,经过清洗、筛选,构建了基础集和用于评估的小测试集。接着,从已有研究成果和测试集中提取表达疾病因果关系的语义特征词,在此基础上进行补充、去重,筛选出更多形式的谓词,并经专家审核,构建出疾病因果关系语义谓词词汇表。最后,利用该词汇表从基础集中提取疾病因果关系对,并进行知识发现。

研究结果令人瞩目:

  • 疾病因果关系语义谓词词汇表构建:研究人员成功构建了包含 50 个文本谓词的疾病因果关系语义谓词词汇表,其中 36 个语义谓词的准确率不低于 80%,42 个不低于 60%,50 个不低于 40%。这一词汇表的构建,为后续准确提取疾病因果关系奠定了坚实基础。
  • 疾病因果关系提取成果:使用准确率不低于 80% 的 36 个文本谓词进行疾病因果关系提取,共得到 259,434 个疾病因果关系对。这些因果关系对涵盖多种类型,为深入了解疾病间的关联提供了丰富的数据支持。
  • 疾病因果关系发现
    • 单向疾病因果关系:发现了 92,557 种类型,共 176,010 个单向疾病因果关系三元组。研究人员对频率不低于 100 次的 32 种疾病因果关系对进行可视化分析,发现与失明相关的疾病因果关系频率最高,沙眼和糖尿病性黄斑水肿是失明的主要原因;同时,高同型半胱氨酸血症是心血管疾病和动脉粥样硬化的危险因素,多种疾病可引发急性肾衰竭、慢性肾衰竭和终末期肾衰竭。
    • 双向疾病因果关系:共找到 6,084 种类型,83,424 个双向疾病因果关系三元组。以肥胖、糖尿病和高血压疾病为例,研究发现肥胖与多种疾病存在高频双向因果关系,如与 2 型糖尿病(非胰岛素依赖型糖尿病),肥胖会导致胰岛素抵抗,进而引发 2 型糖尿病,而基因研究表明 2 型糖尿病也可能导致肥胖。高血压与心血管疾病等多种疾病也存在双向因果关系,高血压是心血管疾病的重要危险因素,心血管疾病反过来也会引发高血压。此外,还发现了高频差异双向疾病因果关系,如阻塞性睡眠呼吸暂停(OSA)与肥胖的关系,目前研究对二者因果关系的结论存在不确定性,值得进一步研究。
    • 其他疾病因果关系:识别出 “原发性疾病因果关系” 和 “罕见疾病因果关系”。原发性疾病因果关系是指从同一句子中提取出至少两个疾病因果关系对,形成链式或双向因果关系结构,这类因果关系更具科学性和可信度。罕见疾病因果关系指疾病间因果关系发生频率较低(10 次或更少),对其研究有助于深入了解疾病的发病机制和风险因素,为医学研究开辟新的方向。


研究结论和讨论部分指出,该研究通过优化语义谓词,显著提高了 SemRep 工具在疾病因果关系提取方面的准确性和全面性。与其他方法相比,该研究构建的语义谓词词汇表能够更灵活地选择语义谓词,满足不同实际需求,实现更精确的疾病因果关系提取。这不仅有助于挖掘生物医学文献中的知识,提高科研人员利用文献的效率,还能为临床诊断、疾病预防和控制提供基于证据的数据支持。然而,研究也存在一些局限性,如手动筛选和提取疾病因果关系语义谓词耗时费力,难以全面提取疾病因果关系对,且未充分考虑知识单元的不确定性。针对这些问题,未来可结合机器学习和深度学习技术提高效率,探索更有效的检测和评估方法,同时考虑文本上下文以提升疾病因果关系提取的质量。

总之,这项研究为生物医学领域疾病因果关系的研究提供了新的思路和方法,虽然存在不足,但为后续研究指明了方向,对推动生物医学发展具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号