
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自训练策略的血液分泌蛋白预测模型BloodProST:突破数据稀缺瓶颈的生物标志物发现新工具
【字体: 大 中 小 】 时间:2025年08月02日 来源:Briefings in Bioinformatics 7.7
编辑推荐:
本研究针对血液分泌蛋白鉴定中实验验证数据稀缺的难题,开发了创新性机器学习框架BloodProST。通过整合差分进化(DE)特征选择、双通路CNN-LSTM架构和生物先验约束的自训练策略,该模型在仅使用7702个阳性样本和6376个阴性样本的情况下,准确预测了蛋白质的血液分泌潜能(AUC达0.9454),显著优于14种现有方法。其创新性在于:首次将分泌蛋白比例(30%-40%)作为生物约束融入损失函数,并构建了基于GeneCards亚细胞定位的高置信度阴性数据集,为疾病诊断标志物发现提供了可靠的计算工具。
在生物医学研究领域,血液中的蛋白质如同分子信使,携带着疾病诊断和治疗的关键信息。然而,要从浩如烟海的人类蛋白质组中准确识别这些"分子信使"却面临巨大挑战——实验验证的分泌蛋白数据稀缺,传统计算方法难以突破数据瓶颈。更棘手的是,许多阴性样本存在标注噪声,而现有深度学习模型又常因"黑箱"特性丧失生物学可解释性。这些困境严重制约了血液生物标志物的发现进程。
针对这一系列难题,南方科技大学(Southern University of Science and Technology)代谢与健康广东省重点实验室的Xuechen Mu等研究人员在《Briefings in Bioinformatics》发表了创新性研究成果。他们开发的BloodProST框架巧妙融合了计算智能与生物学先验知识,通过三个核心技术突破:基于差分进化(DE)的无监督特征选择优化了155个最具判别力的理化特征;双通路CNN-LSTM架构同时捕捉序列依赖性和局部结构模式;特别是创新的自训练策略,通过迭代生成高置信度伪标签,将训练集扩展至190,010个未标注蛋白质,同时将已知分泌蛋白比例(36%)作为正则化约束融入损失函数,确保预测结果符合生物学规律。
研究采用多组学技术路线:首先基于GeneCards亚细胞定位数据构建高置信度阴性样本集(经UniProt验证保留率>99%);通过DE算法从625个初始特征中筛选出155个关键特征(如芳香度、分子量等);设计CNN处理特征数据与LSTM分析氨基酸序列的双通路模型;最后通过自训练框架迭代优化,在独立测试集(HPA血液蛋白和GSNP非分泌蛋白)上验证泛化能力。
特征选择验证:
DE算法将特征维度降低75.2%的同时,使正负样本的Mahalanobis距离从0.585提升至0.607。SHAP分析显示精选特征的累积贡献度达0.538,是未筛选特征的两倍多。伪阳性样本中99.4%含有至少一种分泌相关标记(如信号肽、跨膜区等),而伪阴性样本仅31.9%,证实了特征选择的生物学合理性。
模型架构比较:
在消融实验中,去除LSTM通路导致ACC下降25.96%,而去除CNN通路仅降低3.84%,证实序列信息的主导作用。与14种基线模型相比,BloodProST在验证集上ACC达0.88(提升1.88%),AUC为0.9454(提升1.04%),在尿液蛋白质预测任务中同样展现优异迁移能力(AUC 0.9618)。
生物学意义验证:
预测的分泌蛋白显著富集已知分泌标记:82.3%含信号肽(SP),51.7%含跨膜区(TM),远高于非分泌蛋白(分别为0.7%和4.1%)。这种与实验证据的高度吻合,证实模型捕捉到了真实的生物学规律。
这项研究的意义在于建立了首个整合自训练与生物约束的分泌蛋白预测范式。其创新性体现在三方面:方法论上,突破了小样本学习的限制;技术上,实现了可解释深度学习与领域知识的深度融合;应用上,验证了跨生物流体(血液、尿液)的通用预测能力。特别值得注意的是,研究者通过构建基于GeneCards的阴性数据集和引入分泌比例约束,有效解决了传统方法中的标注噪声问题,为后续研究提供了可靠基准。
该成果的潜在影响深远:在临床层面,可加速癌症等疾病的血液标志物筛选;在基础研究层面,为分泌组学研究提供了新工具;在算法层面,其"生物约束+自训练"框架为其他小样本生物预测问题提供了普适性解决方案。随着更多注释数据的积累,这种融合领域知识的半监督学习方法有望在蛋白质功能预测领域开辟新途径。
生物通微信公众号
知名企业招聘