GL4SDA:基于 GNN 和 LLM 精准预测 snoRNA - 疾病关联,开启生命科学新视野

【字体: 时间:2025年05月07日 来源:Computational and Structural Biotechnology Journal 4.5

编辑推荐:

  为解决传统方法难以高效准确预测 snoRNA - 疾病关联的问题,研究人员开展了 GL4SDA(基于图神经网络 GNN 和大语言模型 LLM 预测 snoRNA - 疾病关联)的研究。结果显示该方法在链接预测任务中表现出色,有助于探索 snoRNA - 疾病关系。

  在生命科学领域,小核仁 RNA(snoRNA)的研究正逐渐成为热点。snoRNA 作为一类非编码 RNA(ncRNA),在核糖体 RNA(rRNA)、小核 RNA(snRNA)等的生物合成和成熟过程中扮演着不可或缺的角色。它们通过与 RNA 结合蛋白(RBPs)等形成 snoRNP 复合物,引导 rRNA 和 snRNA 的甲基化、假尿苷化等修饰,这些修饰对于核糖体和剪接体的正常功能至关重要。
近年来,越来越多的研究发现,snoRNA 与多种人类疾病密切相关。在癌症领域,snoRNA 的异常表达十分常见,并且在不同癌症类型、阶段和转移过程中呈现出差异表达,能够积极影响疾病进程。例如,在某些癌症中,特定 snoRNA 的缺失或过表达会导致相关信号通路的改变,进而促进肿瘤的形成和发展。然而,传统的实验方法在揭示 snoRNA 与疾病之间的关联时,存在耗时久、成本高的问题,这使得科研人员急需一种高效且准确的计算方法来解决这一难题。

在此背景下,来自未知研究机构的研究人员开展了一项旨在预测 snoRNA - 疾病关联的研究,相关成果发表在《Computational and Structural Biotechnology Journal》上。研究人员提出了一种名为 GL4SDA(GNN and LLM for snoRNA - disease association,基于图神经网络和大语言模型预测 snoRNA - 疾病关联)的全新方法。

研究人员主要运用了以下关键技术方法:首先,从 RNADisease v4.0 数据库获取 snoRNA - 疾病关联数据,经过筛选和处理得到训练数据集。对于 snoRNA 的特征提取,利用其二级结构,通过 Molecular Substructure Miner(MoSS)算法获取结构特征,将其表示为布尔特征向量;对于疾病特征,从Malacards.org数据库获取疾病描述,使用北京人工智能研究院(BAAI)的 bge - icl - en 模型生成疾病嵌入。然后,构建了基于不同图神经网络(GNN)层的模型,包括 GraphConv、SAGEConv 和 GATv2Conv 层,通过实验比较不同模型的性能 。

在实验结果方面:

  • 模型性能评估:通过将数据集随机划分为训练集和测试集,并进行 10 折交叉验证,研究人员发现 GL4SDA 的 GraphConv - based 模型在各项评估指标中表现优异。该模型在不考虑边权重时,获得了最高的 MCC(马修斯相关系数)、AUC(受试者工作特征曲线下面积)等分数,表明其能够更好地捕捉 snoRNA 和疾病特征及其关联的隐藏模式。与其他三种基于图的先进工具(IGCNSDA、GCLSDA 和 SAGESDA)相比,GL4SDA 在除召回率外的所有指标上均表现更优,其精度得分高达 92%,意味着预测的阳性关联可靠性极高,且 MCC 值显著高于其他方法,体现了其稳定性和平衡性。
  • 特征重要性分析:研究人员通过消融实验评估了节点特征对模型性能的影响。分别采用 4 - mer 表示 snoRNA 序列和通用嵌入表示疾病特征、结构片段表示 snoRNA 和通用嵌入表示疾病、4 - mer 表示 snoRNA 和 LLM 嵌入表示疾病这三种组合进行实验,结果表明 snoRNA 结构特征和疾病 LLM 嵌入均对分类得分有显著提升,证明了所选取特征的有效性。
  • 案例研究验证:研究人员针对结直肠癌和肺癌进行了案例研究。为每种疾病创建测试集,预测可能的 snoRNA - 疾病关联,并在文献中搜索实验验证。在肺癌验证分析中,发现 GL4SDA 预测的一些 snoRNA,如 SNORD48、SNORD44 等,在文献中有证据表明其在肺癌组织中存在差异表达,部分 snoRNA 还与肺癌的发展机制相关,如 SNORA71A 通过调节 MAPK/ERK 通路刺激上皮 - 间质转化(EMT)。在结直肠癌验证分析中,也发现多个预测的 snoRNA,如 SNORA61、SNORA71A 等,与结直肠癌的发生发展密切相关,涉及 NF - κB 信号通路等关键生物学过程。此外,研究人员还对肺癌案例进行了解释性研究,利用可解释人工智能(XAI)技术获取对预测关联贡献最大的 snoRNA 节点特征,这些特征可作为分子设计的结构背景。

研究结论和讨论部分指出,GL4SDA 通过整合 snoRNA 结构特征和疾病 LLM 嵌入,有效构建了异质生物图中复杂关系的特征丰富表示,在预测 snoRNA - 疾病关联方面优于现有基于图的方法。案例研究进一步验证了该方法在揭示新型 snoRNA - 疾病关系方面的潜力,能够为实验研究提供指导,减少科研人员的工作量。然而,该研究也存在一定局限性。数据集方面,公开可用的已验证 snoRNA - 疾病关联较少,且数据集稀疏不平衡,无法进行外部独立测试。在模型方面,尽管所选 LLM 模型表现出色,但由于其通用训练集的特性,可能无法完全捕捉罕见疾病的细微差别,且无法确定未来模型更新对性能的影响。未来研究可考虑扩展模型,纳入 snoRNA - 疾病关联的正负性信息,这将有助于科学家更深入理解关联的生物学效应。此外,该研究为分析其他 ncRNA - 疾病相互作用奠定了基础,有望推动生命科学和健康医学领域的进一步发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号