主动学习引导的无细胞生物传感器优化用于饮用水铅检测
《Nature Communications》:Active learning-guided optimization of cell-free biosensors for lead testing in drinking water
【字体:
大
中
小
】
时间:2025年12月21日
来源:Nature Communications 15.7
编辑推荐:
本研究针对天然变构转录因子(aTF)生物传感器在灵敏度和选择性上难以满足实际应用需求的问题,开发了一种多目标机器学习(ML)引导的无细胞基因表达工作流程。研究人员以铅响应aTF PbrR为模型,通过结合定向标记的序列对数据训练ML模型,并利用高通量无细胞表达(CFE)系统进行活性筛选,成功将PbrR的灵敏度调整至美国环保署(EPA)行动水平(0.048μM),并显著降低了对锌的交叉反应性。最终获得的工程化PbrR变体在冻干无细胞反应中功能稳定,能够检测低至~5.7 ppb的铅浓度,为开发用于水污染监测的便携式诊断工具提供了高效框架。
铅污染对全球公共健康构成严重威胁,尤其存在于饮用水系统中。在美国,估计仍有920万条铅服务管线在使用。美国环保署(EPA)规定,从2027年起,饮用水中铅的行动水平为0.048微摩尔(μM),即十亿分之十(10 ppb)。然而,自然界中存在的用于感知重金属的蛋白质工具,如变构转录因子(allosteric transcription factors, aTFs),其性能往往不足以直接用于实际检测。例如,源自耐金属贪铜菌(Cupriavidus metallidurans)的铅响应转录因子PbrR,其天然形式对铅的灵敏度不足,无法在EPA行动水平上有效响应;更棘手的是,它对锌离子具有强烈的交叉反应性,而锌是自来水中常见的金属元素(EPA最高限量为76μM),这会导致检测中出现假阳性结果,大大限制了其作为诊断工具的可靠性。
传统的蛋白质工程方法,如定向进化,在优化像aTF这样的变构蛋白时面临巨大挑战,因为其变构特性使得理性设计困难,且难以同时协调多个性能参数(如灵敏度与选择性)的改善。机器学习(Machine Learning, ML)指导的定向进化为探索广阔的蛋白质序列-功能景观提供了新途径,但现有方法多侧重于单一目标的优化,或依赖于可能不可靠的数值预测器,难以处理需要权衡多个目标的复杂工程问题。
为了解决这些挑战,由Brenda M. Wang和Nicole Chiang等人领导的研究团队在《自然-通讯》(Nature Communications)上发表了他们的最新研究成果。他们开发了一个多目标、机器学习引导的无细胞基因表达工作流程,用于工程化改造基于aTF的生物传感器。该工作的核心是采用一种名为“多目标受控外推”(Multi-Objective Controlled Extrapolation)的机器学习框架。该框架基于序列到序列(sequence-to-sequence)的Transformer模型(具体采用ProtT5-XL-UniRef50模型),其创新之处在于使用配对突变体数据进行训练。研究人员不是用单个序列的绝对活性值来训练模型,而是将突变体两两配对,并为每对序列标注其功能变化的方向(例如,对铅的响应“增加”〈inc〉,同时对锌的响应“减少”〈dec〉)。这种使用“方向标记”(directional tokens)的方法,使模型能够学习氨基酸序列变化如何导致多目标功能的方向性改变,而无需依赖具体的数值预测器,特别适合数据稀缺的场景和多目标优化。
为了快速生成高质量的序列-功能数据来训练和迭代优化ML模型,研究团队利用了无细胞表达(Cell-Free Expression, CFE)系统。该系统使用粗提细胞提取物和反应组分,能够在活细胞外进行高通量的转录和翻译。他们通过自动化液体处理工作站,在微孔板中建立了高通量筛选方法,能够同时测试每个PbrR突变体在低浓度铅(1μM)、高浓度锌(30μM)以及无配体条件下的活性,报告基因是超折叠绿色荧光蛋白(sfGFP)的荧光信号。
研究首先利用此前仅针对提高铅灵敏度而工程化的1155个PbrR突变体库(包括丙氨酸扫描诱变、位点饱和诱变和组合诱变库)作为初始数据集(第0轮)。通过高通量筛选,获得了每个突变体在不同条件下的活性数据,并将其归一化为相对于野生型的折叠变化(Fold Change, FC)。热图分析揭示了PbrR各个位点突变对铅、锌敏感性的多样化影响,值得注意的是,对配体敏感性的突变不仅发生在配体结合域,也出现在DNA结合域和螺旋-转角-螺旋结构域,这凸显了理性设计变构蛋白的难度。
研究团队没有使用传统的单个序列数据,而是将数据构建成配对形式用于模型训练。对于两个优化目标(提高铅响应、降低锌响应),共有四种可能的方向性组合(增/增、增/减、减/增、减/减),每种组合被赋予一个独特的标记。这种方法通过数据增强扩展了训练集,并减少了模型记忆特定序列的倾向,提高了其在外推和提出新突变方面的能力。
随后,研究进入了多轮的“设计-构建-测试-学习”(DBTL)循环。第1轮中,ML模型根据第0轮数据预测了382个突变体(1-6位点突变)。筛选发现大多数突变体仍表现为功能丧失或对铅锌敏感性同时增加,但出现了两个具有铅选择性的突变体(D64K_N83F和N83I_K104V)。第2轮,模型除了关注折叠变化(FC)外,还开始关注动态范围(Dynamic Range, DR),并减少了预测突变体的数量(200个),模型探索的残基位置更加集中。此轮发现了一个包含H106A突变(该单点突变本身并无益处)的高阶突变体N83I_K104V_H106A_P143R,其表现出对铅的选择性。
基于前两轮的结果,研究团队穿插了理性设计轮次(第2b轮和后续的第3b轮),将ML模型识别出的关键突变(如D64K, N83I/F, K104V, H106A, P143R)进行组合,构建了高阶突变库。这些理性设计的变体虽然并非模型全新提出,但有效地验证和利用了模型发现的信号。将理性设计获得的高性能突变体数据重新纳入ML模型训练后,显著提升了模型的预测能力。在第3轮,模型预测的突变体中,有大量突变体表现出对铅的高灵敏度同时保持对锌的低敏感性。最终,通过五轮工程化(三轮ML引导,两轮理性设计),研究团队鉴定出6个关键残基位点(D64, N83, I90, K104, H106, P143)的特定组合突变对于实现铅选择性至关重要。这些残基分布在PbrR的各个结构域,表明成功优化涉及全局性的变构调控。最终获得的最佳突变体之一D64K_N83I_I90A_K104T_H106A_P143R,在0.05μM铅浓度下(接近EPA行动水平)表现出显著响应,而对30μM锌则几乎没有反应。
冻干无细胞PbrR生物传感器作为饮用水铅检测诊断方法
研究团队进一步验证了工程化生物传感器的实际应用潜力。他们制备了富含最佳PbrR突变体的细胞提取物,并证明基于该突变体的生物传感器在冻干后仍能保持功能。此外,他们将报告系统从sfGFP改为表达儿茶酚2,3-双加氧酶(catechol 2,3-dioxygenase, C23DO),该酶能将无色的儿茶酚转化为黄色的2-羟基粘康酸半醛,从而实现肉眼可见的比色检测,提高了反应动力学和现场应用的便利性。最后,他们将冻干的传感器与采集自美国伊利诺伊州埃文斯顿和芝加哥的真实市政水样进行测试,并使用电感耦合等离子体质谱法(ICP-MS)对水样中的金属含量进行准确定量。结果表明,该生物传感器能够有效区分含铅(0.03-0.13μM;5.71-26.41 ppb)与不含铅的水样,证明了其作为点式使用(Point-of-Use)诊断工具检测实际水样中铅污染的可行性。
本研究成功建立了一个方向性、多目标的机器学习引导的无细胞平台,用于同时调控转录因子生物传感器的多个特性。该ML框架特别适用于需要权衡多个功能目标的蛋白质设计问题,并且在数据稀缺的情况下表现出色。通过将主动学习与高通量无细胞筛选相结合,研究团队高效地探索了PbrR的序列空间,仅筛选了不到整个搜索空间1%的突变体,就成功获得了能够区分相似二价阳离子Pb2+和Zn2+的高性能变体。这项工作不仅开发了一种有前景的饮用水铅污染现场检测工具,更重要的是,其所提出的多目标机器学习指导的蛋白质工程框架具有通用性,可推广至其他生物传感器乃至更广泛的蛋白质工程应用,将加速合成生物学工具在生物技术领域的开发进程。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号