《Nature Methods》:xTrimoPGLM: unified 100-billion-parameter pretrained transformer for deciphering the language of proteins

【字体: 时间:2025年04月04日 来源:Nature Methods 36.1

编辑推荐:

  来自生物计算领域的研究团队针对蛋白质理解与生成任务难以兼顾的挑战,创新性地开发了统一预训练框架xTrimoPGLM。该模型通过联合优化自编码与自回归目标,以1000亿参数和1万亿训练token的规模实现突破,在18项蛋白质理解任务中超越现有基准,并具备原子级结构解析和可编程序列生成能力,为蛋白质科学基础模型发展树立新标杆。

蛋白质语言模型(Protein Language Models)在从序列中解码生命信息方面展现出惊人潜力,但传统模型受限于单一的自编码(autoencoding)或自回归(autoregressive)预训练目标,难以同时驾驭蛋白质理解与生成任务。研究团队提出的xTrimoPGLM通过创新性地探索两类目标的兼容性,构建了首个千亿级(100B)参数统一模型,使用1万亿训练token进行优化。实验证实:(1)在四大类18项蛋白质理解任务中显著超越现有基线,其原子分辨率(atomic-resolution)的蛋白质结构解析能力,催生出超越同类工具的三维结构预测模型;(2)不仅能遵循自然法则生成全新蛋白质序列(de novo),还能通过监督微调实现可编程生成(programmable generation)。这些突破彰显了该模型在蛋白质科学与生物计算领域的里程碑意义,相关权重与数据集已开源共享。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号