编辑推荐:
在探索基因组如何编码生物体形态这一难题上,研究人员开展了关于基因组作为生物体生成模型(generative model)的研究。结果表明,基因组类似变分自编码器(VAE),构成连接主义网络,编码生物体的生成模型。这一研究为理解遗传与发育机制提供新视角,意义重大。
在生物学的奇妙世界里,一直存在着一个令人着迷却又困惑不已的谜题:小小的基因组,究竟是如何蕴藏着构建复杂生物体的奥秘,精准地编码出形态各异的生命形式呢?长久以来,科学家们尝试用各种比喻来解释这一过程,像 “蓝图”“程序”“食谱” 等,但这些比喻都存在着明显的缺陷。“蓝图” 无法解释发育过程的具体指令以及生物发育的变异性;“程序” 容易让人误解为基因组有着明确、固定的指令序列;“食谱” 虽然强调了自组织性,却过于模糊,缺乏精确的机制阐述。这些解释都无法深入地回答关于基因组信息编码、解码以及遗传与表型关系等关键问题,也难以提供一个坚实的理论基础来模拟和研究生物发育过程。
为了揭开这层神秘的面纱,来自爱尔兰三一学院遗传学和神经科学研究所(Institutes of Genetics and Neuroscience, Trinity College Dublin)的 Kevin J. Mitchell 以及美国佛蒙特大学计算机科学系(Department of Computer Science, University of Vermont)的 Nick Cheney 等研究人员,踏上了探索之旅。他们提出了一个创新的观点:基因组编码了生物体的生成模型。这一观点发表在《TRENDS IN Genetics》杂志上,为我们理解生命的遗传密码提供了全新的视角。
研究人员在研究过程中,主要运用了类比和建模的方法。他们将基因组与人工智能领域的变分自编码器(VAE)进行类比。VAE 是一种神经网络,通过训练学习数据的压缩表示,从而能够生成与训练数据相似的新实例。在这个类比中,进化就像是 VAE 中的编码器,对遗传信息进行压缩编码,形成基因组;而发育过程则如同解码器,将基因组中的信息逐步解压缩,构建出完整的生物体。同时,研究人员还借助基因调控网络(gene regulatory networks)等模型,来阐释基因组中潜在变量(latent variables)如何相互作用,进而影响生物体的发育和形态形成。
下面来详细看看研究的具体结果。
- 什么是基因组中的潜在变量:基因组编码蛋白质序列,但其对生物体形态的编码并非仅靠蛋白质序列。基因表达调控序列同样关键,它是一个动态控制系统,决定细胞在不同条件下的生化反应,影响细胞分化和生物体形态。DNA 核苷酸序列通过编码 RNA 和蛋白质分子,以及构成这些调控因子的结合位点,成为潜在变量的载体。这些潜在变量之间的关系源于反式作用因子与顺式调控元件之间的亲和力,它们以分布式、非线性和间接的方式影响生物体形态。
- 解码器:生长和发育的生成模型:在与 VAE 的类比中,发育胚胎的细胞担当解码器的角色。与机器学习模型不同,生物体在发育过程中需要不断构建和解码器。受精卵的染色体包装成染色质,改变了潜在变量的状态,同时受精卵还继承了特定的蛋白质,这些共同设定了解码的初始条件。随着细胞分裂,新的细胞类型不断产生,解码器的配置也随之改变,使得基因组能够编码多种模型和匹配的解码器。细胞分化在空间和时间上需要协调,基因组通过约束胚胎的发育过程,引导细胞增殖、分化、信号传导和形态发生运动,从而形成生物体的三维形态。
- 基因调控网络、吸引子状态和能量景观:基因组中的潜在变量通过基因调控网络来约束和指导发育。基因调控网络由各种调控因子之间的相互作用构成,这些相互作用可以用逻辑运算来描述。但大多数基因调控是分级的、概率性的,基因并非像简单的布尔运算符那样工作,而是作为连接主义网络中的动态元素。当基因调控网络规模较大时,它可被视为一个动态系统,具有多种稳定的吸引子状态,系统会倾向于朝着这些状态发展。类似于在人工系统中,基因调控网络的复杂相互作用可以用能量景观来描述,Waddington 的 “表观遗传景观” 就是一个生动的例子。在这个景观中,细胞就像一个滚动的球,受到基因的影响,被引导进入不同的山谷,代表不同的细胞命运。而生成模型从数学上也能创建这样的能量景观,景观的形状影响着生物体的发育和性状的演化。
- 编码器:进化作为学习过程:基因组中的潜在变量构成了一个连接主义网络,进化在其中扮演着学习或训练的角色。与深度学习系统类似,进化通过改变网络的权重(即基因之间的调控关系)来适应环境。但进化的学习过程非常间接,它通过自然选择作用于生物体的表型,影响基因变体在种群中的频率。这种进化连接主义导致了基因型和表型之间的压缩编码,这种编码方式具有更强的鲁棒性和可进化性,因为它能够容忍一定程度的遗传变异,使得遗传变异能够在种群中积累,为进化提供素材。
- 模型的性质:生成模型具有压缩、编码潜在变量、抽象间接表示、输出内在变异性、鲁棒性和可进化性等特性。这些特性相互关联,压缩促使潜在变量的抽象和编码,在机器学习中有助于防止过拟合,在生物系统中则表现为对分子过程噪声的容忍。鲁棒性使得生物体能够在遗传变异的情况下仍保持正常发育,而这种鲁棒性又为可进化性提供了基础。因为如果系统不能容忍任何参数变化,进化就无法发生。在自然种群中,大多数性状是多基因甚至全基因影响的,单个基因变体往往具有多效性,并且基因之间存在上位性相互作用。然而,生成模型中的潜在变量空间可以呈现出涌现模块化(emergent modularity)和分离表示(disentangled representations)的特点,使得自然选择能够作用于特定的性状,而不影响其他性状。例如,在动物和植物育种中,可以通过选择特定的遗传变异组合来改变特定的数量性状,而不影响其他性状的平均值。
- 替代吸引子状态:生成模型框架能够解释相同基因组如何根据环境响应产生不同的表型。例如,一些两栖动物和爬行动物的性别由温度决定,社会性昆虫能够产生不同类型的个体(如工蚁、兵蚁、蚁后等)。这些现象表明,基因组以多重方式编码多种可能的解剖形式、生理和行为特征,具体表现形式取决于与环境因素的相互作用。此外,复杂的动力系统还可能产生意想不到的、新的涌现表型,如癌症。这些新的表型在传统的 “蓝图” 或 “程序” 概念中很难解释,但在生成模型的框架下却能够得到合理的解释。
- 可形式化:生成模型概念的一个重要优势是它可以被形式化。基因调控网络的相互作用可以用常微分方程或偏微分方程来建模,聚类和机器学习方法可用于降维,以分析单细胞基因表达数据,深度学习方法也可用于类似的目的。这一概念在人工生命领域也有应用潜力,有助于通过机器学习方法找到高性能的基因型到表型的映射。
研究人员提出的基因组作为生物体生成模型的观点,为我们理解遗传信息如何编码生物体形态提供了一个统一的框架。它克服了以往比喻的局限性,更准确地描述了基因型与表型之间的关系,以及遗传信息在进化和发育过程中的作用机制。这一观点不仅有助于我们深入理解生命的奥秘,还为未来的生物学研究、人工生命的构建以及对复杂遗传疾病的研究提供了新的思路和方法。尽管这一理论还存在一些需要进一步探索的问题,如潜在变量的具体物理元素和关系、进化学习与人工训练算法的差异等,但它无疑为生命科学领域的研究开辟了新的方向,激励着更多的科学家去探索生命的本质。