AI 生物勘探新征程:与原住民携手共享利益,解锁生物多样性商业潜能

【字体: 时间:2025年02月18日 来源:Nature Biotechnology 33.1

编辑推荐:

  为解决商业生物勘探利益分配不公及 AI 模型数据不足问题,Basecamp Research 等公司开展与原住民群体合作的生物勘探研究。他们积累大量数据,开发新工具。这推动蛋白质预测发展,促进生物技术可持续发展,值得一读。

  

新闻


人工智能生物技术公司与原住民群体开展生物勘探考察,并同意利益共享


各公司正在与各国政府达成非传统的利益共享协议,以探索地球上的生物多样性热点地区,收集数千种新的 DNA 和蛋白质序列,用于开发具有商业用途的新分子。
作者:本?约翰逊(Ben Johnson)

总部位于伦敦的生物技术公司 Basecamp Research 通过与全球 25 个国家建立合作伙伴关系,积累了世界上最大的符合伦理来源的基础生物多样性数据库,用于训练人工智能(AI)。今年 1 月,这家初创公司宣布推出一个新的计算机集群,将挖掘其丰富的生物多样性数据库 —— 其中包含从北极冻原和非洲沙漠等极端地区收集的物种 —— 以开发具有商业潜力的新型独特蛋白质。在开展探索之前,Basecamp Research 就同意分享这些蛋白质带来的收入,这种做法为商业生物勘探带来了一种不同寻常的模式。而在传统上,商业生物勘探常与对原住民文化的不公正行为、生物剽窃以及殖民主义做法相关联。

目前,基于人工智能的设计受到现有数据集的限制。新的发现将取决于积累大量高质量的遗传数据来训练人工智能模型,这类似于 ChatGPT 等大型语言模型是如何通过互联网上数百万免费可得的单词和句子进行训练的。Basecamp Research 的首席执行官兼联合创始人格伦?高尔斯(Glen Gowers)表示:“如果我们想要在生物学领域达到那样的智能水平,目前我们还没有类似于互联网这样的资源。” 然而,从自然界的多样性中挖掘解决方案的过程充满挑战。生物技术行业早期的成功依赖于自然界进化出的成分,例如聚合酶链式反应(PCR)中的 DNA 聚合酶以及基因工程中的限制酶。但在将这些资源商业化的过程中,公司往往未能确保各方都能分享经济利益。

这导致人们对利益分配的不公平感日益增强。国际社会对此做出回应,限制商业机构获取生物多样性中的遗传资源,这使得生物技术公司纷纷缩减此类研究项目。如今,它们带着新的愿景卷土重来。2024 年 8 月,Basecamp Research 与喀麦隆政府签署了一项利润共享合作协议。根据协议,Basecamp Research 将对源自喀麦隆的植物、动物和微生物的 DNA 进行测序,并承诺分享使用这些序列开发化妆品、农产品或药物的人工智能工具所产生的利润。高尔斯表示,此次合作还包括为喀麦隆的科学家提供研究资金,因为 “当地有真正了解本地生物多样性的人才”。

基因组学在训练人工智能模型方面具有最大潜力,因为它基于 DNA 的通用编码语言运行。最近,“蛋白质 - 人工智能” 领域取得了一项突破,谷歌旗下 DeepMind 开发的 AlphaFold 2 模型问世。该模型能够从线性氨基酸序列预测大型复杂蛋白质的三维结构,其开发者凭借这一成果荣获 2024 年诺贝尔化学奖。

长期以来对天然药物的探索已进入一个新时代。受增加蛋白质数量以更好地训练机器学习算法这一需求的驱动,商业生物勘探正在复兴。科学家们深入未探索地区,对数百万物种的基因组和蛋白质进行采样,最终目标是找到比自然界现有物质更优良的版本。

最初,机器学习模型依靠诸如 UniProt 这样的大型蛋白质数据库进行结构预测。随后,除了 AlphaFold 2,其他蛋白质预测模型,包括 RoseTTAFold、ESMFold、OpenFold 和 SWISS - MODEL 等,不断拓展蛋白质研究的领域。

Basecamp Research 正在与当地社区建立合作关系,在不违背伦理考量的前提下收集生物数据,并在计划开展生物勘探的地区达成了利润共享协议。该公司在 20 多个生物多样性热点国家收集样本,旨在对这些自然多样性进行编目和挖掘,以重新训练其机器学习算法。在一份预印本中,Basecamp Research 声称,由此产生的工具 BaseFold 的准确性比 AlphaFold 2 高出六倍。

其目标是从多样且复杂的蛋白质中收集高质量的晶体学水平的数据,尤其是那些在现有序列数据库中代表性不足的蛋白质。地球上已知存在的物种超过 200 万种,但迄今为止,只有约 10 万种进行了测序,这只是生物多样性的极小一部分。高尔斯形象地比喻道:“如果大西洋是那片未知物种的海洋,我们目前只发现了五滴水。”

为了进一步推动蛋白质预测研究,目标是对地球上的大多数物种进行测序。高尔斯称,Basecamp Research 的 BaseGraph 数据库已经比最大的公共数据库大 10 倍左右。该数据库包含 DNA、蛋白质、环境和地理信息。高尔斯表示,通过纳入这些背景信息,BaseGraph 有助于预测蛋白质的功能,“因为基于它们在网络中的位置,或许能够推断出一定程度的行为”。正是通过对数千个物种的遗传序列进行细致的采样和编目,Basecamp Research 得以扩充其数据库,使其包含科学界此前未知的蛋白质,并成为他们所宣称的现存最全面的生物序列数据库。借助深度学习工具,该公司不仅能够预测大型复杂蛋白质的三维结构以及蛋白质之间的相互作用,还能发现新蛋白质并对其进行优化,以满足客户在化妆品、治疗药物、食品和生物修复等领域的需求。

2024 年 3 月,该公司与英伟达(NVIDIA)签署合作协议,致力于开发用于药物发现的生成式人工智能平台。该团队发布了一款能够注释蛋白质序列以辅助功能预测的工具。他们还开发出了类似 ChatGPT 的 ZymCTRL 工具,用于生成式蛋白质设计。这款工具是与巴塞罗那分子生物学研究所的诺埃莉亚?费鲁兹(Noelia Ferruz)合作开发的,在 3700 万个酶序列的数据库上进行训练,然后用 Basecamp Research 的数据集进行微调。

到目前为止,ZymCTRL 已经预测出几种新型碳酸酐酶的序列,碳酸酐酶是一种能够加速二氧化碳转化为碳酸氢盐的酶。功能测试表明,其中一些酶在细胞培养中,比现有酶能够在更高的温度和更宽泛的 pH 值条件下发挥作用,尽管它们与现有碳酸酐酶的序列同源性低于 40%,这显示了生物技术公司如何改进自然界的 “工具”。

Basecamp Research 已在 B 轮融资中筹集了 6000 万美元(去年 10 月由总部位于巴黎的 Singular 领投),迄今为止共筹集约 8500 万美元。该公司目前与 15 家公司建立了合作关系,其中包括宝洁公司(Proctor & Gamble)—— 宝洁正在投资开发可在冷水中起作用的新型清洁酶 —— 以及 3 家制药公司。Basecamp Research 还将通过与麻省理工学院和哈佛大学博德研究所(Broad Institute of MIT and Harvard)的大卫?刘(David Liu)合作,尝试预测用于基因药物的新型融合蛋白序列。

蛋白质设计也是总部位于新加坡的 Allozymes 公司的目标,该公司利用人工智能和微流控平台,每天对数百万种新蛋白质进行工业流程和生物修复测试。这些新酶由其人工智能工具设计而成,该工具在数百万公开可得的序列上进行训练。去年 8 月,Allozymes 公司与法国动物饲料生产商安迪苏(Adisseo)合作,宣布了一种新的环保且可持续的蛋氨酸生物生产方法。蛋氨酸是动物饲料中的一种关键氨基酸,目前每年有超过 100 万吨蛋氨酸通过基于化学的生产方法从石油中提取,这对环境产生了重大影响。

利益共享模式可能正在向生物技术的其他领域扩展。2025 年 1 月,总部位于西雅图的基因组医学初创公司 Variant Bio 宣布,将把收入的 4% 分配给捐赠基因组序列以助力药物研发的原住民群体。Variant Bio 最近与总部位于哥本哈根的制药公司诺和诺德(Novo Nordisk)达成了一项 5000 万美元的交易,其中包括向新西兰的毛利人健康组织提供 10 万美元。

随着生物勘探加速发展,新的全球协议正在制定中,以确保其可持续且符合伦理地进行。这一次,各公司纷纷签署新规则,以保护生物多样性,避免 “生物剽窃”。在生物剽窃行为中,相关产品被商业化,而传统知识的持有者却很少或根本没有获得收益。

2024 年 5 月,世界知识产权组织(World Intellectual Property Organization)签署了一项新条约,以打击生物剽窃行为,并确保原住民和其他当地社区从这些发现中获得利润分成。该条约以 2014 年颁布并已获得 141 个国家以及欧盟批准(美国是明显的例外)的《名古屋议定书》(Nagoya Protocol on Access to Genetic Resources and the Fair and Equitable Sharing of Benefits Arising from their Utilization)为基础。地球生物基因组计划(Earth BioGenome Project)是一项宏大的计划,旨在对地球上所有真核生物的多样性进行编目和测序。该计划于 2018 年启动,是一个公私合作项目,被称为 “生物学的登月计划”,目标是在 10 年内每周生成 6 个具有参考质量的注释基因组,并将其公开。其巴西分支 “巴西生物多样性基因组学” 项目是由非营利性的淡水河谷技术研究所(Instituto Tecnológico Vale,ITV)、巴西国家生物多样性管理局以及巴西联邦政府合作开展的。总部位于里约热内卢的淡水河谷公司是世界上最大的矿业公司之一,该公司希望提高这个重污染行业的可持续性。ITV 负责该项目的亚历山大?阿莱克索(Alexandre Aleixo)表示:“我们的想法是促进亚马逊地区的经济发展,但采用与以往截然不同的方式。” 因为目前的经济模式 “不幸地依赖于森林的退化”。

巴西在全球生物多样性排名中位居榜首,拥有世界上数量最多的独特物种,包括 1000 种两栖动物和 50000 种植物。对所有这些物种进行测序超出了地球生物基因组计划的财力范围,因此阿莱克索和他的同事们从 80 种濒危且具有经济重要性的物种(其中 50 种已经完成测序)的参考基因组入手,采样范围从亚马逊河到动物园。

ITV 项目的任务是对那些已有参考基因组的濒危和 / 或具有经济重要性的植物进行测序,比如可可、巴西坚果和阿萨伊浆果。另一个正在研究的物种是巨骨舌鱼(Arapaima gigas),它是世界上最大的淡水鱼。巨骨舌鱼可以长到 3 米长,重达 200 公斤,是当地以河流为生的社区的重要蛋白质来源。所有新测序的巴西基因组都发布在由巴西环境部管理的数据库中,该数据库对所有人开放,包括商业公司。

在伦敦自然历史博物馆,伊恩?巴恩斯(Ian Barnes)领导着地球生物基因组计划中最大的组成部分 “达尔文生命之树” 项目,该项目旨在对英国和爱尔兰的所有植物、动物和真菌进行测序。几个世纪以来的记录保存工作、大量收藏的样本(包括邱园和爱丁堡皇家植物园的样本),以及由维康桑格研究所(Wellcome Sanger Institute)引领的蓬勃发展的基因组学产业,都为这个项目提供了助力。维康桑格研究所已经对 2000 多种当地物种进行了测序,还有多达 8000 种已收集的样本在等待测序。

所有这些序列都是公开可用的,一家生物技术公司已经率先将生物学研究成果重新应用于工业领域。总部位于英国诺里奇的 Colorfix 公司在公共数据库中搜索动植物中的天然色素,一旦确定目标色素,就将其基因导入细菌,并使用标准染色机将其应用于服装染色。

“达尔文生命之树” 项目的采样工作始于 5 年前,最初在私人土地上进行,包括牛津大学拥有的威瑟姆森林以及英国的植物园。部分原因是在新冠疫情期间,公共土地上的采样活动被禁止。

该项目面临诸多挑战,包括条形码标记、编目工作,以及一些特殊的基因组结构问题。巴恩斯提到:“一些具有高度重复基因组的采矿蜂特别棘手,在组装基因组时非常麻烦。”

在多年依赖现有数据库之后,生物勘探的复兴有望借助基础人工智能模型揭示进化的奥秘,这些模型可以预测哪些 DNA 突变可能进化以解决特定问题。

有一点是肯定的:更多的生物数据意味着更优良的人工智能模型。阿莱克索感慨道:“我们生活在一个非常神奇的时代,这些基因组正以极快的速度被揭示出来。”

本?约翰逊(Ben Johnson)
英国伦敦
《自然生物技术》(Nature Biotechnology
第 43 卷 | 2025 年 2 月 | 151 - 158 页 | 156 页

简讯


Colossal 筹集 2 亿美元用于复活渡渡鸟


如果 Colossal 公司取得成功,复活的动物并不会与它们古代的祖先完全相同;相反,它们将是相关现存物种的遗传和环境特征共同作用的产物。为了复活猛犸象,Colossal 公司的研究人员计划编辑 85 个大象基因,开发细胞系,将细胞核融合到亚洲象的卵子中,并将经过编辑的胚胎植入亚洲象或非洲象代孕母体中。为了复活渡渡鸟,Colossal 公司将借助渡渡鸟现存的近亲 —— 尼科巴鸠(Caloenas nicobarica)。对于塔斯马尼亚虎,该公司则依靠肥尾袋鼬(Sminthopsis crassicaudata)。这项工作将综合运用多重基因组编辑技术、人造子宫技术,以及野生鸟类原始生殖细胞的培育技术。

Colossal 公司于 2021 年由哈佛遗传学家乔治?丘奇(George Church)和科技企业家本?拉姆(Ben Lamm)共同创立。十年来,丘奇一直谈及复活猛犸象,并为缺乏资金而感到惋惜。如今,该公司已筹集总计 4.35 亿美元资金,这很可能是灭绝物种复活科学领域获得的最大一笔投资。

帕金森病的基因和细胞疗法取得进展


今年 1 月,一种用于治疗帕金森病的实验性基因疗法进入 2 期研究阶段。拜耳旗下的 AskBio 公司将在患有中度帕金森病的成年患者中开展随机、双盲研究,通过腺相关病毒 2 型(AAV)将治疗药物输送到大脑。AB - 1005 疗法将把人胶质细胞源性神经营养因子(GDNF)基因输送到神经元中,以促进受帕金森病影响的壳核区域的再生。1 期研究结果显示,AB - 1005 耐受性良好,未出现严重不良事件。

拜耳的另一家子公司 BlueRock Therapeutics 宣布,将于 2025 年上半年启动一项双盲 3 期试验,研究移植产生多巴胺的细胞是否能够阻止黑质区域的退化并恢复运动功能。bemdaneprocel 疗法是一种同种异体多能干细胞衍生疗法。在 1 期研究中,该疗法在手术后 24 个月内未显示出严重不良事件。

帕金森病中的神经元损失是一个缓慢的过程,可能在正电子发射断层扫描(PET)检测到疾病迹象的 20 年前就已开始。当症状明显时,大脑黑质中控制运动协调的神经元已有 85% 被破坏。由阿尔卡赫斯特(Alkahest)公司开展的一项试点研究获得了迈克尔?J?福克斯基金会(Michael J. Fox Foundation)提供的 2100 万美元资金支持,该研究旨在寻找早期血液生物标志物,以便在症状出现前数年识别出患帕金森病风险增加的人群。这项名为 Chronos - PD 的试点研究将利用人工智能和多组学综合分析,挖掘西班牙巴塞罗那的输血和血浆衍生药物公司基立福(Grifols)在 10 年间收集的超过 1 亿份血浆样本库。该研究将聚焦于帕金森病患者,约 700 人参与,其中 350 人为帕金森病患者,350 人为对照人群。这是首个包含与真实世界数据相关的疾病诊断前样本的研究,有望推动帕金森病的诊断和药物研发工作。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号