
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于超图对比学习与多尺度注意力特征融合的lncRNA-疾病关联预测模型HGCMLDA
【字体: 大 中 小 】 时间:2025年06月12日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
本研究针对长链非编码RNA(lncRNA)与疾病关联(LDA)预测中存在的复杂高阶关系捕捉困难、已知关联数据稀缺及多视图特征融合不足等问题,中国科学院深圳先进技术研究院团队开发了创新性预测模型HGCMLDA。该模型通过超图卷积网络(HGCN)提取高阶特征,结合对比学习增强表征一致性,采用多尺度注意力机制实现有效特征融合,在两项基准数据集上AUC达0.9662和0.9862,显著优于现有方法。研究成果为疾病机制解析和靶向治疗提供了新思路,发表于《Briefings in Bioinformatics》。
在基因组研究的"暗物质"领域,长链非编码RNA(lncRNA)近年来被证实与癌症、心血管疾病等重大疾病密切相关。尽管生物实验验证的lncRNA-疾病关联(LDA)数量有限,但计算预测方法可大幅降低研究成本。现有预测模型面临三大挑战:传统图神经网络难以捕捉节点间复杂高阶关系;已知关联数据稀缺导致模型泛化性差;多视图数据融合时忽视特征一致性。
中国科学院深圳先进技术研究院联合澳门大学等机构的研究人员开发了创新性预测模型HGCMLDA。该研究通过整合高斯混合模型(GMM)和k近邻(KNN)构建疾病与lncRNA的超图,利用超图卷积网络(HGCN)提取高阶特征;采用对比学习技术增强不同视图间的表征一致性;设计多尺度注意力模块融合全局与局部特征;结合变分自编码器(VAE)从关联矩阵中提取补充特征。最终通过矩阵补全完成预测,在两项基准数据集上实现最优性能。
关键技术方法包括:1)基于GIPK(高斯相互作用谱核)和语义相似度的多源数据整合;2)超图构建采用KNN(设置k=11/14)和GMM(设置g=9)双视图;3)对比学习采用InfoNCE损失函数(温度参数τ=0.8);4)多尺度注意力融合局部(PWConv)与全局(池化)特征;5)使用来自LncRNADisease v2.0等数据库的4,517-7,862组已知关联数据。
模型框架
通过整合疾病语义相似度(DSS)与lncRNA功能相似度(LFS)构建超图,HGCN层传播公式为X(t)
=μ(A-1/2
YWC-1
YT
A-1/2
X(t-1)
θ(t-1)
),其中A为顶点度矩阵,C为超边度矩阵。对比学习损失函数χ1
CL
=-log[eδ(pi
,qi
)/τ
/(eδ(pi
,qi
)/τ
+Σeδ(pi
,pk
)/τ
+Σeδ(pi
,qk
)/τ
)],有效提升表征判别力。
实验结果
在5折交叉验证中,Dataset1上AUC达0.9662,较次优模型GEnDDn提升0.23%;独立测试中AUPR达0.9849,优势显著。冷启动实验显示,对新lncRNA预测AUC为0.9613,验证模型鲁棒性。
案例验证
乳腺癌预测TOP10 lncRNA中8个获文献验证,如GAS6-AS1通过竞争miR-215-5p促进SOX9表达;结直肠癌预测中LINC00365被证实调控Wnt/β-catenin通路;生存分析显示未报道基因AOC4P与患者预后显著相关(log-rank P<0.05)。
该研究首次将超图学习与对比学习结合用于LDA预测,突破传统方法仅聚合邻域信息的局限。多尺度特征融合模块的创新设计,为生物医学领域多源数据整合提供新范式。研究者指出,未来可引入更多组学数据,并增强模型可解释性。这项工作为疾病靶点发现和精准医疗提供了重要计算工具。
生物通微信公众号
知名企业招聘