
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图机器学习的GraphSLA模型:小分子与长链非编码RNA相互作用预测新策略
【字体: 大 中 小 】 时间:2025年08月12日 来源:Artificial Intelligence Chemistry
编辑推荐:
为解决小分子(SMs)与长链非编码RNA(lncRNA)相互作用预测难题,印度中央喜马偕尔邦大学研究人员开发了GraphSLA模型。该研究整合Node2Vec网络特征与Mol2Vec/Doc2Vec分子特征,采用GraphSAGE等5种图学习算法,最终实现98.0%准确率和99.4% AUC-ROC,为lncRNA靶向药物开发提供新工具。
在生命科学的"暗物质"领域,长链非编码RNA(lncRNA)正掀起一场基因调控的革命。这些长度超过200个核苷酸的神秘分子,从癌症到神经退行性疾病,几乎在所有重大疾病中扮演关键角色。H19、MALAT1等明星lncRNA的异常表达,已成为肿瘤发生发展的"分子开关"。更令人振奋的是,小分子药物(SMs)能够像"基因剪刀"般精准调控lncRNA功能,这为靶向"不可成药"靶点带来曙光。然而,面对人体内超过17万种lncRNA与海量化合物的组合,传统实验方法犹如大海捞针,亟需智能算法来破解这道生物医学的"组合爆炸"难题。
中央喜马偕尔邦大学计算生物学与生物信息学中心的研究团队在《Artificial Intelligence Chemistry》发表突破性研究。他们从ncRNADrug数据库精选3,563组SM-lncRNA关联数据,涵盖115种小分子与2,826种lncRNA的相互作用网络。研究创新性地融合了三大特征工程:用Mol2Vec解析小分子"化学语言",用Doc2Vec破译lncRNA"序列密码",再通过Node2Vec捕捉相互作用网络的拓扑特征。经过主成分分析(PCA)降维后,研究人员构建了包含GNN、GCN、GAT、GraphSAGE和SGConv五种图学习算法的比较体系。
关键技术包括:(1)从PubChem和LNCipedia获取SMILES序列与lncRNA序列;(2)采用Node2Vec进行网络特征提取;(3)运用Mol2Vec和Doc2Vec生成分子特征;(4)通过PCA保留95%变异性的83个主成分;(5)构建包含GAT、GCN等五种图神经网络的预测体系。
【数据整合】研究团队建立了包含正负样本的平衡数据集,通过匹配小分子和lncRNA的出现频率,有效避免了数据偏差。
【特征提取】创新性地发现"m+d+n"特征组合(Mol2Vec+Doc2Vec+Node2Vec)性能最优,其中小分子的Mol2Vec特征对模型提升贡献显著。PCA分析确定37个小分子主成分和46个lncRNA主成分可保留95%信息量。
【模型生成】GraphSAGE以98.0%准确率和99.4% AUC-ROC脱颖而出,其邻域采样策略特别适合稀疏的生物网络。比较发现,仅用分子特征(m+d)时性能最低,加入网络特征(d+d+n)后显著提升,而融合化学描述符的m+d+n组合达到巅峰。
【泛化能力】在20%-80%不同规模数据集和独立验证集测试中,GraphSAGE保持99.1%的稳定性能,显著优于GAT(97.5%)和GCN(98.2%)等模型。
这项研究开创了图机器学习在SM-lncRNA关联预测的新范式。特别值得关注的是,GraphSAGE的归纳学习特性使其能够处理未知节点,这对发现全新药物靶点组合具有独特优势。相比传统方法ALACD(92-99%AUC)和DeepLDA(97.0%AUC),GraphSLA模型将预测精度推向新高度。该成果不仅为lncRNA靶向药物开发提供智能导航系统,其多尺度特征融合策略更为复杂生物网络分析树立了新标杆。未来,这种"化学信息学+生物信息学+图学习"的交叉研究模式,或将成为破解生物大数据关联谜题的金钥匙。
生物通微信公众号
知名企业招聘