深度学习驱动的蛋白质组规模淀粉样信号基序检测技术研究

【字体: 时间:2025年07月16日 来源:Bioinformatics 4.4

编辑推荐:

  本研究针对淀粉样信号基序(ASM)检测难题,开发了基于双向LSTM和ProteinBERT的深度学习模型,显著提升了跨物种ASM识别精度。通过对比传统PCFG方法,新模型在细菌和真菌ASM检测中实现最高0.85平均精度,并成功应用于全蛋白质组扫描,为免疫信号通路研究和疾病靶点发现提供了新工具。

  

在生命科学领域,淀粉样蛋白(amyloid)因其独特的交叉β折叠(cross-β fold)结构长期备受关注。这类蛋白不仅能引发阿尔茨海默症等神经退行性疾病,更在动物、真菌和细菌的免疫信号转导中扮演关键角色。然而,淀粉样信号基序(Amyloid Signaling Motifs, ASM)的高度序列多样性使其在庞大蛋白质数据库中的检测成为重大挑战——传统方法如隐马尔可夫模型(HMM)因无法捕捉非局部依赖性而表现乏力,而基于概率上下文无关文法(PCFG)的模型虽有所改进,仍面临计算复杂度的限制。

波兰弗罗茨瓦夫理工大学(Wroclaw University of Science and Technology)的Krzysztof Pysz团队在《Bioinformatics》发表的研究中,创新性地将深度学习技术引入该领域。他们开发了双向长短期记忆网络(BiLSTM)和基于ProteinBERT的架构,通过训练包含10个细菌ASM家族(BASS 1-10)的994个序列数据集,构建出首个能实现蛋白质组规模ASM检测的通用模型。令人振奋的是,这些模型对未知ASM家族的识别准确率最高达85%,比传统PCFG方法提升超过50个百分点。

研究采用多模态技术路线:1)构建包含细菌效应器端BASS_C、受体端BASS_N及真菌FASS等6类测试集;2)开发轻量化BiLSTM模型(含1637个可训练参数)与预训练ProteinBERT模型(1600万参数)进行对比;3)通过UMAP降维技术可视化序列嵌入特征。所有模型均采用6折交叉验证,并以平均精度(AP)和受试者工作特征曲线下面积(AUC)作为核心评价指标。

模型性能比较结果显示:在严格截取的基序测试中,ProteinBERT以0.36 AP显著领先(PCFG仅0.06);当包含10个氨基酸侧翼时,其AP跃升至0.85。特别值得注意的是,在弗氏镰刀菌(Fusarium oxysporum)全蛋白质组筛选中,模型不仅重现了已知的23个ASM,还发现新型GDQN基序对,证实了其发现新ASM家族的能力。

序列嵌入分析揭示:ProteinBERT能清晰区分不同ASM家族(如将进化保守的BASS 3与真菌PP基序聚类),而BiLSTM更擅长区分淀粉样与非淀粉样序列。这种差异印证了Transformer架构在捕捉家族特异性信号方面的优势,而BiLSTM则更专注于识别通用的淀粉样特征。

该研究的突破性在于:首次证明深度学习可突破序列同源性限制检测ASM,为解析免疫信号转导机制提供了新工具。其开发的Python软件包asmscan-bilstm已开源,能高效扫描单个蛋白质序列仅需6毫秒。这项技术不仅有助于揭示微生物病原体的程序性细胞死亡机制,更为探索人类疾病中异型淀粉样蛋白交叉相互作用开辟了新途径。正如作者Witold Dyrka指出:"这种通用性检测方法将取代传统的家族特异性谱搜索,推动淀粉样蛋白研究进入大数据时代。"

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号