基因表达知识图谱:助力患者特征描绘与糖尿病精准预测

【字体: 时间:2025年03月09日 来源:Journal of Biomedical Semantics 1.6

编辑推荐:

  为解决基因表达数据用于糖尿病预测时的难题,研究人员构建知识图谱(KG),提升了预测效果,意义重大。

  # 基因表达知识图谱:解锁糖尿病预测新密码
在健康医学的宏大版图中,糖尿病宛如一颗 “定时炸弹”,悄无声息地威胁着全球无数人的生命健康。据世界卫生组织披露,2019 年,糖尿病直接导致 150 万人死亡,众多患者在 70 岁前就被这一病魔夺走生命 。它还像一个 “并发症制造机”,与失明、肾衰竭、心脏病发作、中风和下肢截肢等多种严重疾病紧密相连。
为了精准 “拆弹”,科研人员将目光投向了基因表达数据。基因表达分析就像一把神奇的钥匙,能帮助我们找到与糖尿病相关的基因,从而实现疾病的早期预测和干预。然而,这把 “钥匙” 在使用过程中却遇到了重重困难。一方面,基因表达数据集里患者数量少得可怜,对于依赖大量数据训练的监督式机器学习方法来说,这点数据根本 “不够吃”;另一方面,不同数据集测量的基因表达各不相同,实验平台和设计也千差万别,就像来自不同世界的 “拼图碎片”,很难拼凑完整。现有的分析方法要么局限于单个数据集,分析范围狭窄;要么整合多个数据集时,只关注部分共同基因,不仅遗漏了许多重要信息,还忽略了基因之间复杂的相互关系。

面对这些困境,德国曼海姆大学(University of Mannheim)的数据与网络科学小组(Data and Web Science Group)的 Rita T. Sousa 和 Heiko Paulheim 挺身而出,开启了一场充满挑战的科研之旅。他们的研究成果发表在《Journal of Biomedical Semantics》上,为糖尿病预测带来了新的曙光。

研究人员采用了一系列关键技术方法来攻克难题。首先,从公共数据库(如基因表达综合数据库 Gene Expression Omnibus,GEO)获取基因表达数据,这些数据就像散落在各处的 “宝藏”,等待被挖掘。接着对数据进行预处理,过滤掉没有基因关联的片段,还探索了三种归一化方法:无归一化、基因归一化和患者归一化,就像给数据 “梳妆打扮”,让它们更具可比性。然后,构建知识图谱(Knowledge Graph,KG),将表达数据和特定领域知识(包括基因本体 Gene Ontology,GO、GO 注释数据和蛋白质 - 蛋白质相互作用 Protein - Protein Interaction,PPI 数据)整合在一起。为了将基因表达数据融入 KG,研究人员想出了两种策略:分箱法和患者 - 基因链接法。最后,利用六种图嵌入方法(RDF2vec、TransE、TransR、distMult、HolE 和 ComplEx)生成患者表示,并通过糖尿病预测和患者表示的分布 / 聚类来评估这些表示。

实验结果


  1. 糖尿病预测:研究人员用三个糖尿病相关的 GEO 数据集(GSE123658、GSE140627 和 GSE143143)进行实验,把糖尿病预测设定为二元分类任务,用多层感知器(MLP)算法训练模型,通过精度、召回率、F1 评分和加权平均 F1 评分来评估模型性能。实验结果令人惊喜,将其他数据集信息融入 KG 后,机器学习模型在所有指标上的性能都大幅提升。比如,基因表达基线的最佳加权平均 F1 评分(WAF)仅为 0.771,而研究人员的方法最高可达 0.870。在众多嵌入方法中,RDF2vec 表现最为出色,尤其是搭配患者 - 基因链接法时。而平移方法(如 TransE 和 TransR)表现相对较弱,语义匹配方法(ComplEx、distMult 和 HoLE)性能相当,其中 HoLE 在使用患者 - 基因链接法时略占优势。在表示策略方面,患者 - 基因链接法效果最佳,加权平均基因嵌入法次之,分箱法表现最差。
  2. 患者表示的分布和聚类:研究人员用 t - SNE(一种统计方法,用于可视化高维数据)和聚类评估指标(Calinski - Harabasz 分数、Davies - Bouldin 分数和轮廓分数)来分析患者表示的分布和聚类情况。结果发现,RDF2vec、HolE 和 TransR 在聚类性能上表现突出,而 ComplEx、DistMult 和 TransE 相对较差。基于基因嵌入的复合表示或 RDF2vec 获得的表示在聚类性能上优于基线方法。不同的表示策略会使患者在语义空间中的表示行为不同,有些策略能有效对齐不同数据集的患者,有些则会区分出不同数据集的患者。

研究人员成功构建了一个能整合不同数据集基因表达数据的知识图谱,通过实验证明了将基因表达数据整合到 KG 中可以显著提升糖尿病预测的性能。这一成果为糖尿病预测开辟了新道路,而且该方法具有通用性,有望应用于其他疾病的预测。不过,研究也存在一些局限性,比如目前 KG 仅纳入了基因表达数据,未来可以纳入更多类型的组学数据(如蛋白质组学、代谢组学)或临床数据,提供更全面的疾病视角;疾病预测任务目前是二元分类,未来可扩展为多类或多标签分类,更精准地捕捉疾病的复杂性。

这项研究成果就像一座灯塔,为糖尿病预测和其他疾病研究照亮了前行的道路。它不仅为科研人员提供了新的研究思路和方法,也为未来攻克更多健康难题带来了希望。相信在科研人员的不断努力下,我们离彻底战胜糖尿病等疾病的那一天会越来越近。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号