基于蛋白质语言模型融合特征与SE连接金字塔网络的蛋白质-DNA结合位点集成预测新方法
《BMC Genomics》:A novel prediction method for protein-DNA binding sites based on protein language model fusion features with SE-connection pyramidal network and ensemble learning
【字体:
大
中
小
】
时间:2025年10月31日
来源:BMC Genomics 3.7
编辑推荐:
本研究针对蛋白质-DNA结合位点预测精度不足的问题,开发了ESM-SECP集成学习框架。该研究创新性地融合ESM-2蛋白质语言模型嵌入特征与PSSM进化保守信息,通过多头注意力机制和SE连接金字塔网络进行特征提取,并结合序列同源模板方法,在TE46和TE129数据集上验证显示AUC分别达0.8942和0.9132,显著优于现有方法,为基因调控机制研究提供了新工具。
在生命活动的精密调控网络中,蛋白质与DNA的相互作用如同精准的分子开关,控制着基因表达、DNA复制等关键生物学过程。这些相互作用的核心在于蛋白质表面特定的DNA结合位点,它们就像一把把特制的"分子钥匙",能够准确识别并结合DNA上的特定序列。传统上,科学家们通过X射线晶体学等实验方法解析蛋白质-DNA复合物结构来定位这些位点,但这类方法成本高昂、耗时漫长,难以应对海量蛋白质序列的分析需求。
随着计算生物学的发展,研究人员开始开发各种计算方法来预测蛋白质-DNA结合位点。早期方法主要依赖手工设计的特征,如基于序列进化信息的PSSM(位置特异性评分矩阵)和氨基酸理化性质。虽然这些方法取得了一定成效,但特征表达能力有限。近年来,深度学习技术为这一领域注入了新活力,卷积神经网络(CNN)和图神经网络等方法显著提升了预测性能。特别是蛋白质语言模型(如ESM-2)的出现,使得直接从蛋白质序列中自动学习有意义的特征表示成为可能。
然而,现有方法仍面临三大挑战:多数方法仅使用单一类型的特征(要么是手工特征,要么是语言模型嵌入),缺乏有效的特征融合策略;网络架构相对简单,难以捕捉多尺度特征;预测视角单一,未能充分利用序列同源性等互补信息。正是为了突破这些局限,张晨锐团队在《BMC Genomics》上发表了他们的创新研究成果。
本研究主要采用了几项关键技术:首先利用ESM-2_t33_650M_UR50D模型提取1280维残基嵌入特征,同时通过PSI-BLAST计算20维PSSM进化特征并经滑动窗口扩展至340维;其次设计多头注意力机制融合上述特征,其中ESM-2嵌入作为Query,PSSM特征作为Key和Value,通过8个注意力头实现深度特征互补;然后构建SE连接金字塔网络(SECP),将金字塔卷积与挤压激励(SE)模块结合,实现多尺度特征学习和通道自适应加权;最后引入基于序列同源的模板方法,使用Hhblits进行同源搜索,设定Sum_probs≥30和置信度≥8的阈值条件来转移结合位点注释,并通过集成学习将模板预测结果与SECP网络输出相结合。
研究团队系统比较了三种特征融合方法的效果。简单拼接融合将1280维ESM-2特征与340维PSSM特征直接连接成1620维向量;1D-CNN融合先分别将两类特征映射至1024维,拼接后通过卷积层降维;而多头注意力融合则通过并行注意力头学习特征间多样化关系模式。实验数据显示,在TE46数据集上,多头注意力融合的AUC达到0.8942,显著优于简单拼接(0.8723)和1D-CNN融合(0.8841),证明其能更有效捕捉ESM-2全局语义信息与PSSM局部进化约束之间的互补关系。
为评估SE连接金字塔网络的设计价值,研究者将其与经典CNN模型进行对比。在TE46数据集上,SECP网络的MCC(马修斯相关系数)为0.4865,明显高于CNN的0.4502。这种性能提升归因于SECP的双重创新:SE模块通过全局平均 pooling 和全连接层生成通道权重,增强判别性特征的表征能力;金字塔结构每四个SE-CNN单元倍增通道数,形成多尺度特征金字塔,有效兼顾局部细节与全局上下文信息。
针对蛋白质-DNA结合位点预测中存在的类别不平衡问题(结合位点数量远少于非结合位点),研究创新性地引入序列同源模板方法作为补充。在TE46数据集上,模板方法独立预测出104个结合位点,其中73个正确,精度高达70.2%。当通过集成学习与SECP网络结合后,整体模型的灵敏度从0.4829提升至0.6041,MCC从0.4502提高至0.4864。这证实了模板方法虽然覆盖范围有限,但其高精度预测能为深度学习模型提供可靠的正面样本补充。
在TE46和TE129两个独立测试集上的综合评估表明,ESM-SECP在多项关键指标上超越已有方法。在TE46上,ESM-SECP的AUC(0.8942)和MCC(0.4865)均显著优于CLAPE-DB(AUC 0.8560)、DNAPred(MCC 0.410)等方法。特别是在衡量不平衡数据分类性能的MCC指标上,ESM-SECP的相对提升超过18%,证明其在实际应用中对真实结合位点的识别更具优势。
本研究成功构建了一个端到端的蛋白质-DNA结合位点预测框架ESM-SECP,通过多头注意力机制实现了蛋白质语言模型嵌入与进化特征的有效融合,利用SE连接金字塔网络增强了多尺度特征提取能力,并结合序列同源模板方法提升了正样本识别精度。实验证明该框架在多个基准数据集上均优于现有方法,为蛋白质-DNA相互作用研究提供了可靠的计算工具。这种集成多源信息、结合深度学习与传统同源分析的研究思路,对今后生物信息学中功能位点预测研究具有重要借鉴意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号