Nature Methods:借助人工智能,研究人员可预测几乎任何蛋白质在人体细胞内的位置

【字体: 时间:2025年05月15日 来源:AAAS

编辑推荐:

  研究人员开发出一种新的机器学习方法,该方法根据相关的氨基酸序列,能自动预测任何人类细胞系中蛋白质的位置,精确到单细胞水平。这一进展有助于临床医生识别某些疾病,简化药物研发过程,并让生物学家对蛋白质突变的影响有新的认识。

蛋白质位于细胞的错误部位可能会引发多种疾病,如阿尔茨海默病、囊性纤维化和癌症。但单个人类细胞中大约有 7 万种不同的蛋白质和蛋白质变体,由于科学家通常在一次实验中只能检测少数几种,手动确定蛋白质的位置极其昂贵且耗时。

新一代计算技术试图利用机器学习模型简化这一过程,这些模型通常利用包含数千种蛋白质及其在多种细胞系中测量出的位置的数据集。其中最大的数据集之一是人类蛋白质图谱,它记录了 40 多种细胞系中超过 13000 种蛋白质的亚细胞行为。尽管该图谱规模庞大,但它仅探索了数据库中所有蛋白质和细胞系可能组合的约 0.25%。

现在,麻省理工学院、哈佛大学和博德研究所的研究人员开发出一种新的计算方法,能够有效地探索剩余的未知领域。他们的方法可以预测任何人类细胞系中任何蛋白质的位置,即使蛋白质和细胞从未经过测试。

他们的技术比许多基于人工智能的方法更进一步,能够在单细胞水平上定位蛋白质,而不是对特定类型的所有细胞进行平均估计。例如,这种单细胞定位可以在治疗后确定特定癌细胞中蛋白质的位置。

研究人员将蛋白质语言模型与一种特殊类型的计算机视觉模型相结合,以捕捉有关蛋白质和细胞的丰富细节。最后,用户会收到一张细胞图像,其中突出显示的部分表明了模型对蛋白质位置的预测。由于蛋白质的定位反映了其功能状态,这项技术可以帮助研究人员和临床医生更有效地诊断疾病或确定药物靶点,同时也能让生物学家更好地理解复杂的生物过程与蛋白质定位之间的关系。

“你可以在计算机上进行这些蛋白质定位实验,而无需接触任何实验室工作台,有望节省数月的工作。虽然你仍然需要验证预测结果,但这项技术可以作为实验测试内容的初步筛选,” 麻省理工学院计算与系统生物学项目的研究生、这项研究论文的共同第一作者Yitong Tseo说道。

与Tseo共同撰写这篇论文的还有共同第一作者Xinyi Zhang,麻省理工学院和哈佛大学博德研究所的Yunhao Bai;以及资深作者Fei Chen,他是哈佛大学助理教授、博德研究所成员。这项研究成果发表在今日的《自然方法》杂志上。

协作模型

许多现有的蛋白质预测模型只能根据其训练时使用的蛋白质和细胞数据进行预测,或者无法在单个细胞内精确定位蛋白质的位置。

为了克服这些限制,研究人员创建了一种用于预测未知蛋白质亚细胞位置的两部分方法,称为 PUPS。

第一部分利用蛋白质序列模型,根据形成蛋白质的氨基酸链来捕捉决定其定位的特性及其三维结构。

第二部分结合了图像修复模型,该模型旨在填补图像中缺失的部分。这种计算机视觉模型通过查看细胞的三张染色图像来收集有关该细胞状态的信息,例如其类型、个体特征以及是否处于应激状态。

PUPS 将每个模型创建的表示结合起来,使用图像解码器输出一张突出显示预测位置的图像,从而预测蛋白质在单个细胞内的位置。

“同一细胞系中的不同细胞表现出不同的特征,我们的模型能够理解这种细微差别,” Tseo说。

用户输入形成蛋白质的氨基酸序列以及三张细胞染色图像 —— 一张用于显示细胞核,一张用于显示微管,一张用于显示内质网。然后,PUPS 会完成其余的工作。

更深入的理解

研究人员在训练过程中采用了一些技巧,来教会 PUPS 如何以一种即使从未见过某种蛋白质也能对其位置做出合理猜测的方式,整合来自每个模型的信息。

例如,他们在训练过程中为模型分配了一个次要任务:明确指出蛋白质定位的细胞区室,比如细胞核。这与主要的图像修复任务同时进行,以帮助模型更有效地学习。

打个比方,就像老师要求学生在画出花朵各个部分的同时写出它们的名称。研究发现,这一额外步骤有助于模型更好地理解可能的细胞区室。

此外,PUPS 同时在蛋白质和细胞系上进行训练,这有助于它更深入地理解蛋白质在细胞图像中的定位倾向。

PUPS 甚至能够自行理解蛋白质序列的不同部分如何分别对其整体定位产生影响。

“大多数其他方法通常要求你首先对蛋白质进行染色,这样你在训练数据中就已经见过它了。我们的方法的独特之处在于,它可以同时对不同的蛋白质和细胞系进行泛化预测,” Zhang说。

由于 PUPS 可以对未知蛋白质进行泛化预测,它能够捕捉到人类蛋白质图谱中未包含的、由独特蛋白质突变导致的定位变化。

研究人员通过进行实验室实验并对比结果,验证了 PUPS 可以预测新蛋白质在未知细胞系中的亚细胞位置。此外,与基线人工智能方法相比,PUPS 在他们测试的蛋白质上平均预测误差更小。

未来,研究人员希望改进 PUPS,使该模型能够理解蛋白质之间的相互作用,并对细胞内的多种蛋白质进行定位预测。从更长远来看,他们希望让 PUPS 能够对活的人体组织而不是培养细胞进行预测。


Prediction of protein subcellular localization in single cells

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号