MoRFs_TransFuse:基于多模态特征融合与轻量Transformer网络的分子识别特征预测新方法
【字体:
大
中
小
】
时间:2025年10月01日
来源:BioData Mining 6.1
编辑推荐:
本研究针对分子识别特征(MoRFs)预测中存在的特征表征不足、长序列适应性差及计算效率低等问题,开发了基于多模态特征融合和轻量Transformer网络的MoRFs_TransFuse预测器。该方法创新性地整合了理化性质、进化特征和预训练模型嵌入,通过多窗口提取和随机森林(RF)二次筛选保留最优特征组合,并利用自注意力机制捕获长程残基关联。实验表明,MoRFs_TransFuse在TEST464和EXP53数据集上的AUC值分别达到0.843和0.867,较现有方法提升2.7%和3.1%,显著提高了预测精度与计算效率。
在蛋白质功能研究领域,科学家们曾长期认为蛋白质必须形成稳定的三维结构才能发挥作用。然而,内在无序蛋白(IDPs)的发现彻底颠覆了这一传统认知。这些蛋白质在天然条件下缺乏固定结构,却广泛存在于真核生物中,占比高达30-50%。它们通过折叠成不同构象与多种分子相互作用,在细胞信号转导、转录调控等生命过程中扮演关键角色。其中,分子识别特征(MoRFs)作为IDPs的重要功能区域,是一类长度不超过70个残基的短结合区域,能够在结合蛋白质伙伴时发生从无序到有序的转变,通常位于长无序区域内,可分为α-MoRFs、β-MoRFs、γ-MoRFs和复合型MoRFs四种类型。
尽管MoRFs具有重要的生物学功能,但其准确预测仍面临诸多挑战。早期预测方法如α-MoRFpred仅能预测α型MoRFs,而MoRFpred虽能预测所有类型却依赖多种特征和预测器,导致模型复杂。后续发展的MoRFCHiBi系列方法虽摆脱了对其他预测器的依赖,但仍存在特征表征不足、计算效率低等问题。组合预测器OPAL通过整合多种信息源提升效果,却依然计算复杂且依赖现有预测结果。总体而言,现有方法在特征表征、长序列适应性和计算效率方面存在明显局限。
为解决这些难题,河北工业大学张乐乐、何浩与石雪森研究团队在《BioData Mining》发表了题为“MoRFs_TransFuse: a MoRFs predictor based on multimodal feature fusion and the lightweight Transformer network”的研究论文,提出了一种基于多模态特征融合和轻量Transformer网络的创新预测方法。
研究团队采用多模态特征提取策略,整合了ProtBERT和ESM-2两个预训练语言模型生成的1024维和1280维特征嵌入,以及手工构建的73维特征集(包含理化性质、进化特征和结构特征)。通过长度分别为10、45和90的三级滑动窗口捕捉不同尺度的序列信息,并利用随机森林算法筛选出3500个最具判别性的关键特征。在预测模块中,设计了一个轻量级Transformer网络,通过自注意力机制有效捕获长程残基关联,使用层归一化加速训练收敛,全连接层实现特征压缩,并加入位置编码增强序列位置感知。最终通过MLP网络完成MoRF区域的准确预测。
研究方法上,研究使用了与既往研究相同的基准数据集,包括训练集TRAINING421(421条序列,5396个MoRF残基)和测试集TEST464(由TEST和TESTNEW合并而成,464条序列,5779个MoRF残基),以及独立测试集TEST_EXP53(53条序列,2432个MoRF残基)。采用AUC作为主要评价指标,同时计算不同真阳性率(TPR)下的假阳性率(FPR)。
研究发现,多模态特征融合是提升预测性能的关键。在特征集3内部,RF筛选的10维特征集与其余63维特征组合使用效果最佳。预训练模型嵌入的分析表明,ProtBERT的进化信息特征(Fea1)、ESM-2的结构信息特征(Fea2)与特征集3(Fea3)的三者融合实现了最优性能,特别是在低FPR区域(FPR<0.03)表现突出。通过二级特征筛选,确定3500个特征为最佳数量,平衡了特征表征充分性与计算效率。
MoRFs_TransFuse在TEST464和TEST_EXP53数据集上分别达到0.843和0.867的AUC值,较现有最佳方法提升2.7%和3.1%。在TPR为0.2、0.3和0.4时,其FPR均低于对比方法(MoRFCHiBi、PROMIS、MoRFMPM等),表明该方法在保持高敏感性的同时有效降低了假阳性率。
以TEST_EXP53数据集中的P21513蛋白序列(1061个残基,含两个MoRF区域)为例,MoRFs_TransFuse准确识别了833-850和1039-1059两个MoRF区域,准确率达0.9689,TPR为0.8718,FPR仅0.0274,AUC高达0.9836。尽管存在少量假阳性和假阴性区域,但核心区域预测效果显著。
研究讨论指出,MoRFs_TransFuse的成功得益于多模态特征融合产生的协同效应和轻量Transformer网络的长序列建模能力。然而,该方法仍存在一定局限:RF特征选择可能忽略非线性关联特征;预训练模型嵌入的简单整合未能充分挖掘多模态信息的互补性;超长蛋白序列处理时计算负荷仍较大。未来研究可考虑整合更多生物数据源,优化特征提取策略,改进Transformer架构以更好地处理超长序列和动态构象变化。
该研究为MoRFs预测提供了新的解决方案,在药物靶点发现和构象调控治疗领域具有重要应用价值。通过创新性地融合多源生物信息数据和轻量化网络设计,实现了计算效率与预测精度的平衡,为内在无序蛋白的功能研究提供了有力工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号