
-
生物通官微
陪你抓住生命科技
跳动的脉搏
PTMFusionNet:基于深度学习的疾病相关翻译后修饰预测与疾病亚型分类新方法
【字体: 大 中 小 】 时间:2025年06月17日 来源:Molecular & Cellular Proteomics 6.1
编辑推荐:
研究人员针对现有蛋白质翻译后修饰(PTM)信息与蛋白质表达数据整合不足的问题,开发了深度学习模型PTMFusionNet。该方法通过层注意力图卷积网络(LAGCN)预测PTM潜在性评分,结合特征加权图卷积网络(FWGCN)整合蛋白质表达数据,在KIPAN、COADREAD和THCA三个数据集中展现出优于基准算法的准确率、F1值和AUC值,为疾病亚型分类和关键PTM生物标志物识别提供了新思路。
在精准医疗时代,蛋白质翻译后修饰(PTM)作为调控蛋白质功能的关键机制,已成为疾病诊断和治疗的重要靶点。然而,现有PTM数据库覆盖范围有限,难以与高通量蛋白质组数据有效整合,这严重制约了PTM在临床中的应用。与此同时,不同疾病亚型往往表现出独特的PTM模式,但受限于检测技术的复杂性和成本,如何从有限的PTM信息中挖掘潜在的疾病相关修饰成为亟待解决的难题。
针对这一挑战,国内某研究机构的研究团队开发了名为PTMFusionNet的深度学习框架。该研究创新性地将PTM潜在性预测与疾病亚型分类相结合,通过整合多源异构数据,实现了对疾病关键PTM生物标志物的精准识别。相关成果发表在《Molecular》杂志上,为蛋白质组学在临床诊断中的应用开辟了新途径。
研究团队主要采用了以下关键技术方法:首先从PhosphoSitePlus?和PTMD数据库获取已知PTM-疾病关联数据;其次利用TCGA数据库获取KIPAN、COADREAD和THCA三种癌症的蛋白质表达数据集;然后构建包含序列相似性和高斯相互作用谱核相似性的异质网络;最后开发了包含LAGCN和FWGCN的双网络架构,通过5折交叉验证评估模型性能。
在"评估潜在PTM预测性能"部分,研究显示LAGCN在最优参数下(训练步数α=800,学习率lr=0.01)取得了0.8860的AUC值,显著优于单一相似性指标。通过网格搜索确定的超参数组合确保了模型的最佳预测能力。
"疾病分类性能评估"结果表明,PTMFusionNet在三个数据集上均表现优异:COADREAD数据集的ACC达0.8227±0.0528;KIPAN数据集的F1_weighted为0.9657±0.0030;THCA数据集的AUC达0.6885±0.0994,全面超越SVM、KNN和IBPGNET等基准算法。
"特征加权模块的消融实验"证实,特征加权策略显著提升了分类性能。在COADREAD数据集中,加入特征加权后ACC提高约12%,且该策略同样提升了传统机器学习算法的表现,验证了方法的普适性。
"共享蛋白数量对PTMFusionNet性能的影响"分析显示,当共享蛋白数量超过10个时,模型性能稳定提升。这一发现为临床应用设定了数据量的参考标准。
"蛋白质相似性融合和层注意力机制的验证"部分阐明,序列相似性(SSP)与高斯相互作用谱(GIP)的融合策略(AUC=0.9054)优于单一相似性,而层注意力机制通过动态平衡浅层拓扑特征和深层语义模式,实现了全局多尺度建模。
"COADREAD相关重要PTM生物标志物"研究中,通过5折交叉验证鉴定出26个独特PTM,其中PREX1和SMAD3蛋白的修饰频率最高。这些PTM与Rho GTPase和TGF-β信号通路相关,实验验证显示其在结直肠癌迁移和侵袭中起关键作用。
"文献和质谱数据的案例研究"通过对脑脊液和尿液样本的分析,验证了模型预测的PTM生物标志物。在PCNSL中,STAT3等8个蛋白的PTMs获得实验证实;在前列腺癌中,19/20的预测PTM获得文献支持,包括EPHA2磷酸化等关键修饰。
"PTMFusionNet在不同超参数δ下的性能"测试表明,正则化系数δ的优化对模型性能至关重要。在δ=0.001-0.01范围内,模型保持最佳平衡,避免过拟合同时保留重要生物标志物。
该研究的结论部分指出,PTMFusionNet通过创新的特征加权策略,成功实现了PTM信息与蛋白质表达数据的有效整合。尽管存在数据稀疏和PTM类型预测有限的挑战,但该方法为临床诊断提供了新工具。未来研究将聚焦于构建包含多组学特征和详细PTM位点信息的综合数据库,进一步推动精准医疗发展。这项工作的意义在于建立了PTM驱动的研究范式,通过深度学习挖掘潜在的生物标志物,显著降低了大规模实验筛选的成本,为癌症等复杂疾病的分子分型和靶向治疗提供了新思路。
生物通微信公众号
知名企业招聘