
-
生物通官微
陪你抓住生命科技
跳动的脉搏
结构引导的蛋白质序列表征学习框架(S2RL)实现多功能预测通用性突破
【字体: 大 中 小 】 时间:2025年09月15日 来源:Bioinformatics 5.4
编辑推荐:
来自未知机构的研究人员针对蛋白质功能预测中结构信息利用不足的难题,开发了结构引导序列表征学习框架(S2RL)。该研究创新性地将3D结构特征嵌入序列学习范式,通过多尺度特征提取和新型注意力池化方法,在多功能联合预测任务中实现性能提升,代码已开源共享于GitHub和Zenodo平台。
在计算生物学领域,仅凭氨基酸序列准确预测蛋白质功能始终是项具有挑战性的基础课题。尽管AlphaFold等技术的突破使蛋白质三维(3D)结构预测取得重大进展,但单纯依赖结构信息进行功能推断的效果仍不尽如人意。为突破这一瓶颈,研究者们曾尝试将序列与结构数据整合为图神经网络(Graph Neural Network)模型——以氨基酸残基(Residue)为节点,空间邻近关系为边构建蛋白质图。然而由于不同蛋白质的氨基酸数量差异巨大,导致构建的分子图尺度悬殊,这种显著的尺寸差异使得模型难以从多尺度图中提取具有泛化能力的特征信息。
最新提出的结构引导序列表征学习(Structure-guided Sequence Representation Learning, S2RL)框架另辟蹊径,通过将结构知识嵌入序列学习范式,直接从蛋白质序列中提取多层次特征。该创新方法不仅能捕获更具功能意义的表征,还设计了支持多任务学习的通用架构,相比传统单一任务预测模型展现出更优的性能和灵活性。实验证明,基于蛋白质图的新型注意力池化(Attention Pooling)方法可有效整合不同长度蛋白质的全局结构特征与局部化学特性,在功能位点预测、结构-功能关系解析等任务中表现突出。这种能同步预测多种功能的集成学习方案,显著提升了计算效率,相关代码已在GitHub和Zenodo平台开源共享。
生物通微信公众号
知名企业招聘