AAGP预测模型:基于机器学习的抗衰老肽多特征整合预测新方法

【字体: 时间:2025年08月09日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对抗衰老肽(AAGP)预测的挑战,开发了整合4,305种理化与组成特征的机器学习预测系统。研究人员通过构建两种负样本数据集(抗菌肽DS1/随机肽DS2),采用启发式特征选择算法筛选最优特征子集,最终使LGBM和ET模型在独立测试中分别达到MCC 0.692/0.580和AUC 0.963/0.808的优异性能。该研究为加速抗衰老肽发现提供了高效计算工具,特征重要性分析揭示DS1依赖理化特征而DS2侧重组成特征的差异化识别机制。

  

人类对抗衰老的探索从神话时代延续至今,随着现代科技发展,抗衰老研究已从玄学转变为严肃的科学命题。皮肤皱纹、免疫功能下降等衰老表征背后,隐藏着复杂的分子机制。虽然肽类疗法因其高特异性、低免疫原性成为研究热点,但传统实验筛选方法耗时费力。更棘手的是,抗衰老肽作用机制多样——从胶原调节到线粒体功能增强,这使得计算预测面临巨大挑战。

台湾科研团队在《Scientific Reports》发表的研究中,构建了名为AAGP的创新预测系统。该系统通过机器学习整合肽序列的4,305种特征,包括氨基酸组成(AAC)、间隔氨基酸对(CKSAAP)等57类特征,采用Boruta算法进行特征重要性排序,并运用启发式方法确定最优特征子集。研究特别设计了两类负样本对照组:抗菌肽数据集(DS1)和随机肽数据集(DS2),以评估模型在不同场景下的泛化能力。

关键技术方法包括:1) 从AagingBase和DBAASP v3数据库获取正负样本,经CD-HIT去冗余;2) 使用Pfeature和iFeature工具提取序列特征;3) 采用RobustScaler进行抗离群值数据标准化;4) 通过Optuna进行贝叶斯超参数优化;5) 应用SHAP值解析模型决策机制。

氨基酸组成和二肽组成

分析显示抗衰老肽富含甘氨酸(Gly)、谷氨酰胺(Gln)和脯氨酸(Pro),而支链氨基酸亮氨酸(Leu)和异亮氨酸(Ile)含量较低。二肽分析进一步验证MQ、GP等组合在阳性样本中的富集现象,为模型识别提供了分子基础。

选定特征子集

启发式算法确定50个最优特征,DS1侧重电荷、疏水性等理化特征(如ABHPRK类占7个),DS2则偏好组成特征(如DDE类占7个)。这种差异反映抗菌肽与随机肽的不同区分逻辑,说明模型能自适应调整识别策略。

交叉验证基准

在DS1_Main上,极端随机树(ET)模型表现最佳(准确率0.956,MCC 0.715),而DS2_Main因识别难度增加导致指标普遍下降,但ET仍保持0.941准确率和0.580 MCC,证实模型稳定性。

独立测试结果

LGBM在DS1_Indp达到0.963 AUC,而ET在DS2_Indp获0.808 AUC。值得注意的是,预测准确率与肽段亲/疏水残基比例呈正相关,与不带电残基比例呈负相关,这种规律性验证了模型的可解释性。

SHAP解释

分析揭示DS1依赖CTDC电荷特征等物理化学属性,DS2则通过DDE_MQ等组成特征决策。这种差异化识别策略表明,针对不同应用场景需采用定制化建模方法。

该研究通过多维度特征工程和严谨的模型验证,建立了抗衰老肽预测的新标准。特别有价值的是发现:对抗菌肽负样本需关注理化特征,而对随机肽需侧重序列组成。这种情境依赖的识别逻辑为后续研究提供了重要方法论指导。虽然当前模型在极端不平衡数据(P/N=1:15)上表现有待提升,但其开源代码和模块化设计为领域发展奠定了坚实基础,将显著加速抗衰老肽的发现与化妆品、治疗药物的开发进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号