通过文本注释的语料库提升蛋白质表示的预测能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Nature Machine Intelligence》：Boosting the predictive power of protein representations with a corpus of text annotations

【字体：大中小】 时间：2025年08月21日 来源：Nature Machine Intelligence 23.9

编辑推荐：

　　本研究通过在蛋白质语言模型上微调19种UniProt文本注释，显著提升了功能预测任务表现，超越基础工具，验证了多模态数据对模型优化的价值。

摘要

蛋白质语言模型被训练用来从庞大的蛋白质数据库中预测氨基酸序列，并学会将蛋白质表示为特征向量。这些向量表示方法在许多应用中都展现了强大的能力，从预测突变效应到研究蛋白质折叠机制。这些模型之所以成功，其中一个原因是保守的序列基序通常对蛋白质的功能适应性至关重要。然而，序列保守性与蛋白质适应性之间的关系可能会受到进化和环境因素的干扰。那么，我们是否应该寻找其他可能包含更直接功能信息的数据来源呢？在这项研究中，我们全面探讨了使用蛋白质模型来预测UniProt中19种文本注释类型的效果。研究结果表明，对这些注释中的部分数据进行微调能够提升模型在多种功能预测任务中的性能。特别是在我们的评估任务中，我们的模型表现优于基本的局部比对搜索工具，而所有预训练的蛋白质模型都未能达到这一水平。我们的研究结果表明，可以通过利用更广泛的数据类型（如文本注释）来进一步改进蛋白质语言模型。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号