利用卷积神经网络从转录本丰度推断蛋白质水平:探索生命分子调控密码

【字体: 时间:2025年02月28日 来源:BioData Mining 4

编辑推荐:

  为解决从 mRNA 丰度准确推断蛋白质丰度的问题,研究人员用卷积神经网络(CNN)开展研究,在人及拟南芥中取得 r2为 0.30 和 0.32 的预测结果,助力相关研究。

  在生命的微观世界里,蛋白质就像一个个勤劳的 “小工匠”,它们执行着各种重要的生物学功能,从参与新陈代谢、信号传导,到帮助机体抵御病原体入侵等。蛋白质的表达水平更是对生物的表型有着至关重要的影响。然而,想要精准地了解这些 “小工匠” 的数量并非易事。目前,测量 mRNA 浓度的技术已经相对成熟,可以通过批量或单细胞测序技术轻松获取,但蛋白质浓度与 mRNA 浓度之间的相关性却很差。也就是说,不能简单地用 mRNA 浓度来推测蛋白质浓度。同时,实验测量蛋白质组不仅技术难度大,而且成本高昂,这就像给研究人员戴上了沉重的 “镣铐”,限制了对蛋白质的深入研究。
在这样的困境下,来自德国亥姆霍兹慕尼黑中心(Helmholtz Munich)和慕尼黑大学(Ludwig-Maximilians-Universit?t München)的研究人员 Patrick Maximilian Schwehn 和 Pascal Falter-Braun 决定 “披荆斩棘”,开展一项极具意义的研究。他们利用卷积神经网络(Convolutional neural network,CNN)技术,尝试从 mRNA 丰度、蛋白质序列和 mRNA 序列来预测蛋白质丰度,相关研究成果发表在《BioData Mining》上。

为了实现这一目标,研究人员运用了多个关键技术方法。在数据处理方面,他们整合了来自 Wang 等人及 Mergner 等人研究中的人(Homo sapiens)和拟南芥(Arabidopsis thaliana)的转录组 - 蛋白质组数据,并对数据进行标准化和转换处理。在模型构建与训练上,他们基于 TensorFlow 2.8 搭建 CNN 模型,采用随机梯度下降优化算法,根据不同输入特征设置不同学习率,通过多次独立重复实验和十折交叉验证确保模型可靠性。此外,还利用聚类分析和交叉相关分析等方法挖掘数据特征和关系。

下面来看看研究的具体成果。在对数据集进行深入探索时,研究人员发现线性回归在捕捉 mRNA 和蛋白质浓度关系方面表现最佳,可作为后续分析的基线。他们还发现,简单地根据转录本丰度变化来归一化蛋白质丰度并不可靠,因为这种方法在人及拟南芥中都产生了负的 r2值。而且,当数据点少于 20 个时,很难确定 mRNA 和蛋白质浓度之间的稳定关系,但当数据点达到至少 20 个时,预测就会变得较为可靠。

接着,研究人员构建了基于 CNN 的模型来预测蛋白质丰度。他们设计了两个不同的前端模块,分别用于处理不同类型的输入数据。通过交叉验证发现,不同特征的预测能力存在差异。在 “密集模块” 特征中,密码子计数对拟南芥最有信息价值,氨基酸计数对人最有效;在 “卷积模块” 特征中,编码序列(CDS)在预测蛋白质丰度方面最为突出。此外,他们还发现不同物种间特征的影响存在差异,如某些氨基酸对蛋白质 - mRNA 比率(PTR)的影响在人和拟南芥中截然不同。同时,通过分析模型学习到的权重,还识别出了许多已知的序列基序,这些基序在翻译起始、mRNA 稳定性等过程中发挥着重要作用。

随后,研究人员尝试引入额外的上下文相关信息来提升蛋白质丰度的预测效果。他们假设一些可能参与蛋白质稳态或反映细胞状态的基因,如激酶基因,能为 PTR 的变化提供线索。然而,令人意外的是,测试的基因集都未能显著改善模型的预测能力。即便如此,研究人员通过分析发现,在人和拟南芥中,与蛋白质丰度预测相关性高的基因在功能上存在差异,这暗示着不同生物面临的主要挑战可能塑造了蛋白质稳态的调控机制。

在研究结论和讨论部分,研究人员构建的基于 CNN 的模型在预测蛋白质丰度方面取得了一定成果,在人及拟南芥中的决定系数 r2分别达到了 0.30 和 0.32。与之前的序列基序方法相比,该模型在人的预测性能上提升了近 50%,而且为拟南芥的蛋白质丰度预测建立了首个序列基序模型。不过,研究也存在一些局限性,如可能受到训练数据的限制而出现过拟合现象,且数据集中组织样本数量有限。未来的研究可以通过整合更广泛的训练数据、考虑更复杂的调控相互作用等方式来进一步改进模型。

这项研究意义重大,它为从转录本丰度推断蛋白质水平提供了新的方法和思路,帮助我们更好地理解蛋白质表达调控的机制,也为系统级和假设驱动的蛋白质调控研究提供了有力支持,就像为生命科学研究打开了一扇新的窗户,让我们能更清晰地窥探生命分子调控的奥秘。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号