基于质量感知深度强化学习的靶向蛋白质组学色谱峰识别新方法——MsTargetPeaker

《Molecular & Cellular Proteomics》:MsTargetPeaker: a quality-aware deep reinforcement learning approach for peak identification in targeted proteomics

【字体: 时间:2026年02月04日 来源:Molecular & Cellular Proteomics 5.5

编辑推荐:

  本研究针对靶向蛋白质组学中低丰度目标肽段色谱峰识别易受干扰的难题,开发了质量感知的深度强化学习算法MsTargetPeaker。该方法通过定制奖励函数动态评估峰质量,结合蒙特卡洛树搜索精准定位峰边界,在宽浓度范围和多种生物样本中均展现出优于mProphet和DeepMRM的识别精度与鲁棒性,为临床生物标志物验证提供了可靠的自动化解决方案。

  
在精准医疗时代,靶向质谱技术如同一位高精度狙击手,能够从复杂的生物样本中精准定量特定肽段,为疾病生物标志物的发现和验证提供关键技术支持。然而,这位"狙击手"在实战中却面临着一个棘手难题——如何从充满噪声的色谱图中准确识别出目标肽段的信号峰?特别是当目标肽段含量极低时,信号峰往往被淹没在背景噪声中,传统方法难以精准定位。
目前主流的自动化峰识别方法通常采用两阶段策略:先粗选峰区域,再进行质量评估。这种"先开枪后瞄准"的方式存在明显局限——初始选择时缺乏质量意识,导致后续难以通过边界调整提升峰质量。面对这一挑战,长庚大学分子医学研究中心的研究团队在《Molecular Medicine》上发表了一项突破性研究,开发出名为MsTargetPeaker的质量感知智能算法,将深度强化学习与蒙特卡洛树搜索巧妙结合,实现了色谱峰识别的精准自动化。
研究团队采用了几个关键技术方法:首先构建了基于Gymnasium的强化学习环境,将峰识别建模为序列决策问题;然后设计了包含TMSQE质量评分、信号存在性、峰完整性等七项指标的综合奖励函数;最后通过近端策略优化算法训练智能体,并结合双渐进扩展蒙特卡洛树搜索实现质量感知的峰边界优化。实验数据来源于Panorama公共数据库的170万多个峰组,涵盖4045种独特肽段。
质量感知搜索流程的设计
研究人员创新性地将峰识别过程构建为七轮渐进式蒙特卡洛树搜索(MCTS)。如图1所示,智能体通过观察42×1024的色谱图矩阵,输出调整峰起始和结束边界的动作值。奖励函数作为"质量导航仪",动态评估每个候选区域的综合质量,引导搜索朝向高质量峰区域。特别值得关注的是,该方法在后期搜索轮次中引入了跨样本边界共识机制,利用同目标肽段在不同样本中的峰边界分布规律,显著提升了低质量信号识别的可靠性。
宽浓度范围内的卓越性能
在浓度范围0.01-512 fmol/μg的反向响应曲线数据集测试中,MsTargetPeaker展现出令人瞩目的性能。如图3所示,该方法在所有浓度水平均达到1.0的平均精度值,而DeepMRM在低于0.5 fmol/μg时性能下降,mProphet在极高和极低浓度下精度降低。在定量一致性方面,MsTargetPeaker与人工标注的峰面积比显示出极高相关性(Pearson相关系数0.9996),且TMSQE质量评分分布更为集中,表明其选择的峰区域具有更优且更稳定的质量。
跨数据集的泛化能力验证
为验证方法的普适性,研究团队在九个独立数据集上进行了测试。如表2所示,MsTargetPeaker在平均精度、相关性系数等各项指标上均优于对比方法。特别值得注意的是,其精度-召回曲线呈现平滑单调下降趋势,反映了奖励函数设计的稳定性。消融实验进一步证实,TMSQE质量评分组件对整体性能具有重要贡献,移除该组件会导致各项指标明显下降。
跨样本共识的提升作用
如图6所示案例生动展示了边界共识机制的价值。当目标肽段YMEDSTY[+80]YK的参考重链色谱中存在两个明显峰时,DeepMRM错误选择了强度更高但非目标的左侧峰,而MsTargetPeaker凭借跨样本边界共识概率密度函数的指导,准确识别出正确的目标峰。这种"集体智慧"的引入,特别适用于低丰度目标或高干扰条件下的峰识别。
可解释的质量报告体系
除了卓越的识别性能,MsTargetPeaker还提供了完整的质量诊断报告体系(图7)。报告包含过渡离子质量、峰组质量、重复一致性等五个维度的评估,通过颜色编码直观标识峰质量等级,为用户快速筛选需人工复核的案例提供了便利。这种透明化的质量评估机制,为建立全自动定量工作流奠定了基础。
研究结论与展望
本研究开发的MsTargetPeaker通过深度强化学习与蒙特卡洛树搜索的融合,实现了靶向蛋白质组学中色谱峰识别的质量感知自动化。其核心创新在于:将质量评估嵌入峰边界选择过程,而非后置处理;设计综合奖励函数量化峰质量;引入跨样本共识机制提升低质量信号识别可靠性。该方法在宽浓度范围和多样本集中展现出的优越性能,为临床生物标志物研究的高通量、标准化定量分析提供了技术支撑。
值得注意的是,该方法目前主要适用于配有稳定同位素标记内标的峰组识别,且奖励函数的设计理念可能偏向特定质量定义。未来工作中,通过扩展奖励组件(如信噪比、离子迁移率特征等)和集成峰水平定量决策流程,有望进一步拓展其应用场景。随着精准医疗对标准化定量需求的日益增长,这种质量导向的智能识别方法有望成为靶向蛋白质组学分析的新标准。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号