哈佛大学开发专门解析基因组学语言的新人工智能系统gLM

【字体: 时间:2024年04月29日 来源:scitechdaily biology

编辑推荐:

  像ChatGTP这样会聊天能编码还能总结综合的人工智能(AI)系统已经风靡全球,也给研究人员写作论文带来方便。人工智能系统能学习生命的语言,并帮助生物学家揭示令人兴奋的科学突破吗?

  

哈佛大学生物与进化生物学(OEB)在读博士Yunha Hwang与团队进行了一项开创性的研究,开发了一种能够破译基因组学复杂语言的人工智能系统gLM,可以从大量微生物数据中解码基因组学的复杂语言。这一创新使人们能够更深入地了解基因功能和调控,从而在基因组学方面取得新发现。gLM体现了人工智能在推进生命科学和应对全球挑战方面的潜力。研究结果发表在新一期的《Nature Communications》上。

基因组语言是生物学的源代码。它描述了基因组编码的生物学功能和调控语法。研究人员期望能够开发出一种人工智能引擎来“阅读”基因组语言,并熟练掌握这种语言,理解基因的意义、功能和规律。该团队将微生物宏基因组数据集(目前最大、最多样化的基因组数据集)输入机器,以创建基因组语言模型(gLM)。

基因组数据的挑战

“在生物学中,我们有一本已知单词的字典,研究人员在这些已知单词中工作。问题是,这部分已知的单词还不到生物序列的1%,”Hwang说,“基因组数据的数量和多样性正在爆炸式增长,但人类无法处理如此庞大的复杂数据。”

像GPT4这样的大型语言模型(LLM)通过处理大量不同的文本数据来学习单词的含义,从而能够理解单词之间的关系。基因组语言模型(gLM)从高度多样化的宏基因组数据中学习,这些数据来源于生活在不同环境中的微生物,包括海洋、土壤和人类肠道。有了这些数据,gLM通过了解基因与其基因组环境之间的关系,学会理解每个基因的功能“语义”和调节“语法”。与LLM一样,gLM是一种自我监督模型——这意味着它仅从数据中学习有意义的基因表示,而不需要人为分配标签。

揭示基因组学的未知

研究人员已经对一些最常被研究的生物进行了测序,比如人类、大肠杆菌和果蝇。然而,即使是研究最多的基因组,大多数基因的特征仍然很差。“在这个‘组学’的革命时代,我们学到了很多东西,包括我们不知道的东西,”资深作者、哈佛大学经济学教授Peter Girguis说“在实验室里,我们被困在一个循序渐进的过程中,寻找一个基因,制造一个蛋白质,纯化它,描述它的特征,等等,所以我们只能发现我们已经知道的东西。”“我们想问,在不依赖谚语词典的情况下,我们如何从事物中收集意义? 我们如何更好地理解基因组的内容和背景?”

该研究表明,gLM可以学习酶的功能和共同调节的基因模块(称为操纵子),并提供了可以预测基因功能的基因组背景。该模型还学习了基因功能的分类信息和上下文依赖性。因此,gLM在不知道它看到的是哪种酶,也不知道这个序列来自什么细菌的情况下,基于在训练过程中了解了序列之间的进化关系,能够推导出序列之间的功能和进化关系。gLM能够帮助生物学家研究未知基因的背景及其作用,只要它经常在相似的基因群中。该模型可以告诉研究人员,这些基因组一起工作是为了达到某种目的,它可以提供“字典”中没有出现的答案。

gLM在生物学中的潜力

就像单词一样,基因可以根据它们所处的环境而具有不同的“含义”。高度分化的基因在功能上可能是“同义的”。gLM为理解基因功能提供了一个更细致入微的框架。这与现有的从序列到注释的一对一映射方法形成对比,这种一对一映射方法不能反映基因组语言的动态性和上下文依赖性。

Hwang与机器学习和生物学独立研究员Andre Cornman、麻省理工学院助理教授Sergey Ovchinnikov,圣裘德儿童研究医院副教授Elizabeth Kellogg共同组成了微生物学、基因组学、生物信息学、蛋白质科学、机器学习等领域的跨学科团队。

Hwang表示:“基因组环境包含了了解不同蛋白质和基因的进化历史和进化轨迹的关键信息。”“最终,gLM学习这些上下文信息,以帮助研究人员了解以前未注释的基因的功能。”“有了gLM,我们可以对注释不足的基因组获得新的见解,”“gLM还可以指导功能的实验验证,并能够发现新的功能和生物机制。我们希望gLM能够加速发现应对气候变化和生物经济的新型生物技术解决方案。”

“传统的功能注释方法通常一次只关注一种蛋白质,而忽略了蛋白质之间的相互作用。生物信息学和机器学习专家Martin Steinegger(首尔国立大学助理教授)没有参与这项研究,他说:“gLM通过将基因邻里概念与语言模型相结合,从而提供了更全面的蛋白质相互作用视图,这是一项重大进步。”

通过基因组语言建模,生物学家可以发现新的基因组模式并揭示新的生物学。gLM是跨学科合作推动生命科学进步的一个重要里程碑。

参考文献:“基因组语言模型预测蛋白质协同调节和功能”,作者:Yunha Hwang, Andre L. Cornman, Elizabeth H. Kellogg, Sergey Ovchinnikov和Peter R. Girguis, 2024年4月3日,Nature Communications。DOI: 10.1038 / s41467 - 024 - 46947 - 9

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号