Nature Biotechnology:研究人员借助人工智能发现未知分子

Self-supervised learning of molecular representations from millions of tandem mass spectra using DreaMS

【字体: 时间:2025年05月29日 来源:AAAS

编辑推荐:

  来自布拉格IOCB和捷克理工大学CIIRC的研究人员开发了一种名为DreaMS的机器学习模型,该模型显著加快了对未知分子的分析速度。该研究发表在《自然生物技术》杂志上。

  

今年“Neuron Award”青年科学家奖的获得者、来自捷克布拉格IOCB的Tomáš Pluskal博士,与他的学生Roman Bushuiev以及来自捷克技术大学(CIIRC CTU)捷克信息学、机器人学和控制论研究所的同事Josef Šivic博士和Anton Bushuiev一起,开发了一种名为DreaMS的机器学习模型,该模型显著加快了对未知分子的分析速度。这项研究发表在《自然生物技术》杂志上。

自然界中充满了尚未被发现的化学物质。人们认为,绝大多数天然分子仍是未知的。描述这些分子可能为新药、更环保的农药、更深入的生物过程理解,或对宇宙生命进行更深入的研究铺平道路。

每种物质都有一种独特的模式,类似于人类的指纹,称为质谱,可以用一种称为质谱法的方法捕获。虽然这种方法可以生成大量数据,但解读这些数据并揭示精确的分子结构却极其困难。由此产生的数据集通常看起来像是一堆毫无意义的庞大数字表格。

为了揭开未知分子的奥秘,来自IOCB和CIIRC CTU的团队将目光转向了人工智能。与ChatGPT等大型语言模型能够在不预先知晓单词含义的情况下学习理解语言一样,DreaMS模型也尝试在不事先了解其化学结构的情况下解读质谱图。“ChatGPT可以从大量文本中推断单词的含义及其之间的联系,而DreaMS神经网络则利用自监督机器学习,学习识别光谱中隐藏的分子结构。它利用了数百万个示例的数据,” Josef Šivic解释道。

“DreaMS 模型基于来自不同生物体和环境(植物、微生物、食物、组织和土壤样本)的数千万张光谱进行训练。正因如此,它能够发现乍看之下似乎毫无关联的光谱之间隐藏的相似之处,”Pluskal 说道。最终形成了一个互联网络,帮助人们浏览海量化学数据。这个网络可以被想象成一个质谱互联网,被命名为 DreaMS Atlas。每张光谱都像一个相互链接的网站。在这个“光谱互联网”上,用户可以搜索、探索已发现的联系,并提出新的问题——例如:农药、食物和人体皮肤之间有哪些共同点?DreaMS 发现了它们之间意想不到的化学相似性,并推测某些农药可能与牛皮癣等自身免疫性疾病有关。

除了连接来自不同研究的光谱外,DreaMS 还可以用于各种实际任务——例如,估算一个分子包含多少特定片段,或者它是否包含特定的化学元素。“我们尤其惊讶的是,该模型学会了检测氟,” Roman Bushuiev 说道。“氟存在于大约三分之一的药物和农用化学品中,但我们之前无法从质谱中可靠地检测到它。在对数百万张光谱对 DreaMS 进行预训练后,我们又用几千个含氟分子样本对其进行了微调——结果它突然就成功了。”

研究人员目前正在进行下一步研究:训练该模型预测整个分子结构。如果成功,它将从根本上改变我们对化学多样性的理解——无论是在地球上还是在更远的地方。


Self-supervised learning of molecular representations from millions of tandem mass spectra using DreaMS

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号