HGCJAMH:一种基于高阶矩引导模型和超图跳跃学习机制的circRNA-药物敏感性预测方法
《Journal of Molecular Biology》:HGCJAMH: A Method for circRNA-Drug Sensitivity Prediction Based on Higher-Order Moment-Guided Model and Hypergraph Jumping Learning Mechanism
【字体:
大
中
小
】
时间:2025年11月07日
来源:Journal of Molecular Biology 4.5
编辑推荐:
circRNAs通过调控药物敏感性在精准医学中发挥重要作用,但现有CDSA预测方法存在依赖湿实验、数据稀疏、特征表达不足、高阶异构关系建模不充分等问题。本文提出HGCJAMH模型,通过KNN/K-means构建双视图超图,结合高阶矩指导卷积、跳跃知识网络、特征注意力机制和层次化多视图融合模块,有效捕捉circRNA与药物的高阶复杂关系,并采用矩阵补全进行关联预测。实验表明,该模型在5折交叉验证中AUC达98.19%,AUPR达98.18%,显著优于现有模型,且具有良好生物可解释性。
circRNAs,即环状RNA,是一种特殊的非编码RNA分子,因其独特的环形结构和连续的序列而区别于线性RNA。自1976年首次被发现以来,circRNAs在多种生物过程中逐渐被认可为具有重要作用,包括转录调控、miRNA海绵作用、蛋白质结合以及翻译调控等。随着高通量测序技术和计算生物学的发展,越来越多的circRNAs被鉴定出来,并显示出在疾病诊断和治疗中的巨大潜力。
近年来,circRNAs在调节细胞药物敏感性方面的研究引起了广泛关注。已有研究表明,特定的circRNAs可以通过调控miRNA轴或关键信号通路,影响细胞对化疗药物如顺铂、吉西他滨和多柔比星的反应。这些发现不仅揭示了药物耐受性的分子基础,还为精准治疗和药物再利用提供了新的思路。然而,目前对circRNAs与药物敏感性之间关系的系统性研究仍然不足,缺乏一个全面的预测框架。因此,开发高效、低成本的计算模型,以预测潜在的circRNA-药物敏感性关联,对于发现新的生物标志物以及推动个体化治疗具有重要意义。
尽管生物实验可以直接验证circRNAs与药物敏感性之间的关系,但这类实验往往成本高昂且耗时较长,限制了其在大规模筛选中的应用。传统的湿实验方法在检测circRNA-药物敏感性关联时效率较低,且资源消耗较大。因此,迫切需要开发更加高效、经济的计算模型,以辅助识别潜在的治疗靶点。
近年来,随着计算能力的显著提升,机器学习技术在生物信息学领域展现出了巨大的潜力。特别是在建模生物实体之间的关联方面,深度神经网络(DNNs)已被广泛应用,为探索复杂的生物机制提供了新的视角。受这些技术进步的启发,一系列计算模型被提出用于circRNA-药物敏感性关联(CDSA)的预测,逐步提高了预测性能和生物可解释性。
例如,Deng等人[9]首先提出了GATECDA模型,该模型利用图注意力自编码器从已知的CDSAs和相似性信息中提取circRNAs和药物的低维表示。Yang等人[10]进一步开发了MNGACDA模型,该模型整合多模态信息与卷积神经网络(CNNs),获得多层嵌入,其预测性能优于GATECDA。Lu等人[11]引入了多核融合方法,结合成对拉普拉斯正则化最小二乘(DLapRLS)以增强预测能力。Li等人[12]提出了MNCLCDA模型,该模型利用药物结构、circRNA序列和GIP核信息构建相似性网络,并通过混合图卷积与对比学习提高鲁棒性。为了进一步挖掘结构信息,Li等人[13]设计了DGATCCDA模型,该模型结合DeepWalk与图注意力网络(GATs)。Xia等人[14]提出了SGTCDA模型,该模型整合结构深度网络嵌入(SDNE)与图变换器,以捕捉长距离依赖关系。Liu等人[15]提出了MHGTCDA模型,该模型结合自适应随机自编码器与异构图变换器,用于上下文表示学习。随后,Wang等人[16]引入了AAECDA模型,该模型整合多尺度卷积神经网络(MSCNNs)与对抗自编码器(ADAs),以提取多层级特征进行CDSA预测。
尽管已有多种方法用于预测CDSA,但仍然存在显著的局限性。一方面,这些方法主要依赖于通过湿实验验证的circRNA-药物关联数据。现有的数据库大多采用二进制表示(“1”表示已知关联,“0”表示未知或未验证的关联),导致“0”值远多于“1”值,从而引入大量假阴性样本,削弱了模型的准确性和可解释性,并在稀疏或未验证的样本上表现出较差的性能。另一方面,circRNAs和药物的特征嵌入质量直接影响关联预测的性能。尽管已有基于图注意力网络的模型被提出用于学习非线性嵌入,但它们主要关注于chi-square图中的成对关系,忽略了异构图中潜在的高阶复杂结构;同时,对多视图信息中每个视图的重要性与相关性的建模不足,也限制了表示融合的有效性。
为了解决现有方法在CDSA预测中的局限性,我们提出了一种端到端的超图跳跃学习模型HGCJAMH,该模型整合了超图特征注意力模块、高阶矩引导卷积机制以及层次多视图融合模块,以预测circRNA与药物之间的敏感性关联。首先,基于circRNA-药物异构网络,我们创新性地引入了KNN/K-means方法,构建了circRNAs(或药物)的两个不同视图的超图,用于表示circRNAs与药物之间的高阶关系,这大大增强了模型对复杂生物信息的表示能力。随后,通过超图卷积网络(HGCN),从这些超图中挖掘出高阶复杂关系。为了增强深度特征表示并缓解过度平滑问题,我们结合了超图对比学习与跳跃知识网络(JK-Net),以学习更具判别性的嵌入表示。此外,我们引入了超图特征注意力模块,用于自适应评估不同视图嵌入表示的重要性,并实现多视图潜在表示的加权融合。考虑到circRNA与药物之间的数据有限,我们设计了一种新的高阶矩引导卷积机制,用于融合circRNA和药物的初始特征与超图特征。随后,通过层次多视图融合模块,充分提取多视图特征,并最终通过基于神经网络的矩阵补全方法预测circRNA与药物之间的敏感性关联。我们对HGCJAMH进行了系统的评估,采用5折和10折交叉验证,结果表明该方法优于多个现有的基线模型。消融实验验证了各个模块的有效性,案例研究进一步确认了模型预测的潜在circRNA-药物关联的生物学意义。
综上所述,我们在HGCJAMH模型中对circRNA-药物敏感性关联(CDSA)预测的贡献可以总结如下:
(1)我们提出了HGCJAMH,一种新颖的基于超图的深度学习模型,用于准确的CDSA预测。
(2)我们在构建两个视图的超图时,整合了超图卷积、高阶矩引导卷积、跳跃知识网络和多头注意力,以捕捉circRNA-药物异构图中的复杂拓扑和特征交互,显著提升了预测性能。
(3)我们通过先进的采样和定制化的损失函数,解决了数据稀疏性和不平衡问题,提高了模型的鲁棒性,并能够有效识别具有生物学意义的CDSAs,例如已验证的伏立诺他滨和林纳非尼的关联。
在本研究中,我们采用的基线数据集直接来源于Deng等人[9]的框架。具体而言,circRNA-药物关联最初是通过整合CircRiC数据库[17]和GDSC数据库[18]获得的。CircRiC数据库提供了与癌症相关的circRNAs的功能注释,而GDSC数据库则包含了标准化的抗癌药物敏感性数据。通过整合这两个数据库,我们获得了80,076个潜在的circRNA-药物关联,涵盖了404个circRNAs和250种药物。为了确保统计可靠性和
在评估过程中,我们采用了多种指标来衡量模型的性能。验证的circRNA-药物敏感性关联(CDSAs)被标记为正样本集P,包含circRNAs和药物之间经过实验确认的相互作用。未验证的关联则构成未标记集U,包括缺乏实验验证的潜在相互作用。在训练阶段,正样本集P被随机打乱,以减少潜在的数据分布偏差,并确保训练集与验证集之间的统计独立性。这种方法有助于提高模型的泛化能力,使其在面对新数据时表现更加稳定。
此外,为了全面评估模型的性能,我们还设计了多个实验。首先,我们对模型进行了5折和10折交叉验证,以验证其在不同数据划分下的稳定性。交叉验证的结果显示,HGCJAMH在预测性能上显著优于多个现有的基线模型。其次,我们进行了消融实验,以验证各个模块的有效性。通过移除某些模块,我们观察到模型性能的变化,从而确定哪些模块对提升预测能力最为关键。这些实验不仅帮助我们理解模型的内部机制,还为模型的优化提供了依据。
在案例研究中,我们进一步验证了模型预测的潜在circRNA-药物关联的生物学意义。我们选取了一些已知的药物-靶点关联作为验证样本,并分析了模型预测结果与这些样本之间的匹配程度。结果表明,HGCJAMH不仅能够准确预测潜在的CDSAs,还能够提供有意义的生物学解释,这有助于理解药物敏感性的分子机制,并为临床应用提供参考。例如,模型预测了与伏立诺他滨和林纳非尼相关的circRNAs,这些结果与已有的实验数据一致,进一步验证了模型的有效性。
在讨论部分,我们分析了circRNAs在药物敏感性预测中的重要性。研究表明,circRNAs不仅与药物敏感性密切相关,还可能成为预测患者对特定药物反应的潜在生物标志物。它们在揭示药物耐受性的分子机制方面也具有重要作用,为临床医生制定靶向治疗策略提供了宝贵的依据。此外,这些分子特征还为药物研发提供了新的视角,有助于发现新的药物靶点和优化现有药物的使用方案。
通过HGCJAMH模型,我们不仅提升了circRNA-药物敏感性关联预测的准确性,还增强了模型的生物可解释性。这使得模型在实际应用中更加可靠,并能够为医学研究和临床实践提供支持。未来的研究可以进一步探索模型在其他生物过程中的应用,例如基因表达调控、细胞信号传导和疾病治疗中的作用。此外,还可以通过引入更多的生物数据和优化模型结构,进一步提高预测性能和适用范围。
最后,我们对本研究的贡献进行了总结。HGCJAMH模型的提出,不仅解决了现有方法在CDSA预测中的诸多问题,还为未来的研究提供了新的思路和技术手段。通过整合超图卷积、高阶矩引导卷积、跳跃知识网络和多头注意力,我们构建了一个能够有效捕捉复杂生物信息的深度学习框架。这一框架在提高预测性能和生物可解释性方面表现出色,为circRNA-药物敏感性关联的预测提供了有力支持。我们相信,HGCJAMH模型将在未来的研究和应用中发挥重要作用,并为精准医学和药物研发带来新的突破。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号