-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用FUN-PROSE预测真菌基因的反应
【字体: 大 中 小 】 时间:2023年11月22日 来源:AAAS
编辑推荐:
在一项新的研究中,研究人员开发了一种名为FUN-PROSE的机器学习方法来预测基因对不同环境条件的反应。
来自环境的信号引发一系列变化,以不同的方式影响不同的基因。因此,传统上很难研究这些信号如何影响生物体。在一项新的研究中,研究人员开发了一种名为FUN-PROSE的机器学习方法来预测基因对不同环境条件的反应。
不管生物体是什么,细胞都会利用mRNA对周围环境进行微调。首先,他们使用一种叫做转录因子的蛋白质来感知变化,然后将其与基因前面的DNA序列(称为启动子)结合。这种附着既可以阻止基因形成mRNA,也可以增加mRNA的数量。然后mRNA作为模板在细胞中产生负责各种功能的蛋白质。这种机制允许细胞快速重新分配资源,以维持生存。
研究启动子如何被控制是基因组学中最古老的挑战之一,但研究人员仍在继续努力解决这个问题。最大的问题是不同的转录因子可以结合到相同的启动子序列,并且在不同的环境条件下以不同的排列方式结合。此外,虽然有一些证据表明转录因子倾向于与启动子中的特定序列基序结合,但并非所有这些都得到了广泛的研究。近年来,研究人员转向人工智能来帮助他们解决这些挑战。
生物工程和物理学教授Sergei Maslov (CAIM的领导者/CABBI)说:“基因有平均的表达水平,以前的机器学习模型无法测量在不同条件下这些水平是如何变化的。”“我们感兴趣的是了解特定基因对pH值、温度和营养变化的反应。”
研究人员开发了一种名为“条件特异性表达真菌启动子”(FUN-PROSE)的模型,用于预测面包酵母(酿酒酵母)和研究较少的真菌粗神经孢子菌和Issatchenkia orientalis对环境变化的反应。
为了建立这个模型,研究人员首先必须确定这三个物种的启动子序列和转录因子。然后,他们训练模型来了解哪些启动子基序在不同条件下被转录因子识别。
马斯洛夫研究小组的研究生阿南森·纳姆比亚(Ananthan Nambiar)说:“草棘球菌和东方棘球菌的转录因子不像葡萄球菌那样广为人知,所以我们必须推断出哪些基因可以通过这些物种的转录因子来识别。”维罗妮卡·杜宾金娜(Veronika Dubinkina)是马斯洛夫小组的前研究生,现在是格莱斯顿研究所的博士后研究员,她说,这个过程涉及到一种常用的方法,即扫描已知与DNA结合的蛋白质区域。
最后,该模型学会了如何整合所有信息,以计算在特定条件下与mRNA的平均水平相比产生了多少mRNA。然后,研究人员将FUN-PROSE获得的结果与RNA-seq数据进行了比较,RNA-seq数据测量了所有三种真菌的mRNA水平波动。每个生物体都有超过4000个基因和180个转录因子,这些转录因子在12-295个条件下被测量,这取决于对它的研究程度。
“预测在一系列条件下哪些基因是重要的一直是一个难题。然而,我们发现我们的模型非常接近于预测这些生物体实际发生的情况,”Nambiar说。
除了评估其性能外,研究人员还阐明了该模型如何进行预测。马斯洛夫研究小组的前本科生西蒙·刘(Simon Liu)说:“即使它有黑箱的性质,我们也能够理解我们的模型是如何看待启动子的,并发现它已经学会了搜索已知的序列。”“能够解释经过训练的模型对于验证其逻辑以及使用它来发现新的监管知识至关重要。”
然而,这种模式确实在与以前从未遇到过的推广者作斗争。Nambiar说:“这个模型在新的条件下很好,但是如果你给它一个新的基因或启动子序列,它就会出错。”
根据马斯洛夫的说法,这些错误是由于可用的数据有限。“机器学习是一个黑匣子,你需要好好训练它,这样你才能学习生物学,”他说。“如果我们能获得更多的数据,这个模型将有更多的模式可供学习,并将做出更准确的预测。”
研究人员现在有兴趣在其他生物体上测试他们的模型。“原则上,我们的技术没有任何限制——它应该适用于任何生物体。然而,以动物为例,基因以更复杂的方式控制,这将需要模型结构的重大改变和更多的训练数据。”Maslov说。“不过,看看这种模式能有多好,还是很有趣的。”