《ACS Omega》:Optimization of the Quantum-Si Platinum Single-Molecule Protein Sequencing Platform Toward Improved Complex-Matrix Protein Identification
编辑推荐:
蛋白质是一类在生命过程与结构中发挥重要作用的大分子。蛋白质测序技术因此成为理解细胞代谢通路、疾病机制以及病原体与毒素作用方式的基础。新兴的下一代蛋白质测序(next-generation protein sequencing, NGPS)技术有望使蛋白质组学取
蛋白质是一类在生命过程与结构中发挥重要作用的大分子。蛋白质测序技术因此成为理解细胞代谢通路、疾病机制以及病原体与毒素作用方式的基础。新兴的下一代蛋白质测序(next-generation protein sequencing, NGPS)技术有望使蛋白质组学取得显著进步,实现对病原体和毒素的识别达到前所未有的灵敏度与精确度。Quantum-Si(QSi)Platinum测序仪是一种新兴的单分子蛋白质测序技术,能够达到单个氨基酸分辨率。在本研究中,研究人员对QSi蛋白质文库制备方案进行了显著优化,将样本制备时间从32小时缩短至10小时,且不牺牲测序质量,实现了不到24小时的样本到答案流程。该改良方案被应用于分析一组蛋白质,包括16个序列各异的单结构域抗体和一个无毒性的金黄色葡萄球菌肠毒素B衍生物。研究人员进一步确定了文库稀释阈值:超过100倍稀释后将丧失测序能力。最终,研究人员成功在粗制细菌细胞裂解液背景中获得了蛋白质序列,证明了在复杂蛋白质混合物中进行测序的有效性。测序化学和数据处理的改进有望减少或消除对参考序列的依赖——这是目前高效表征未知蛋白质的一个障碍。通过进一步精简和优化文库制备,该技术为需要快速表征高度复杂生物系统的蛋白质组学应用提供了潜力,显著改善了基于蛋白质的疾病诊断技术。
蛋白质与肽段测序技术是分子生物学和生物技术中的基础工具,为研究人员探索蛋白质一级结构及其在生命系统中的功能角色提供关键信息,对于理解蛋白质功能、疾病机制以及开发广泛的药物和疗法至关重要。经过数十年的发展,测序方法从Edman降解等基础技术,演进至利用质谱(mass spectrometry, MS)和荧光测序(fluorosequencing)的先进技术,再到现在单分子测序、自上而下蛋白质组学(top-down proteomics)和机器学习等创新技术,不断扩展其在研究、个性化医学和诊断领域的应用。
单分子蛋白质测序作为识别蛋白质和肽段的变革性工具,能够以无与伦比的灵敏度和精确度分析单个蛋白质分子,有望检测复杂蛋白质混合物中的稀有或低丰度肽段,在病原体和毒素识别等需要从未经充分处理的临床或环境样本中快速检测的场景中具有重要价值。目前已发展出多种蛋白质测序技术,各有优劣:Edman降解作为首个实现纯肽测序的方法,操作繁琐且需要高纯度化学标记肽段;质谱虽能灵敏识别复杂混合物中的蛋白质,但从头测序(de novo sequencing)依赖现有特征数据库,未知蛋白质测序仍是未解难题;生物纳米孔和固态纳米孔技术以及量子场效应纳米间隙传感(quantum fieldeffect nanogap sensing)等新兴技术虽展现潜力,但尚未成熟或实现商业化。
Quantum-Si(QSi)Platinum蛋白质测序仪是目前唯一的台式商业化单分子测序平台。其蛋白质文库制备流程较传统方法显著简化,通过将蛋白质消化为肽段并固定于半导体芯片孔中,利用氨基肽酶(aminopeptidase)进行迭代式的N端氨基酸识别与切割,基于荧光信号特征推断固定肽段的氨基酸序列,再与指定目标的参考序列比对。该台式系统的优势在于去中心化蛋白质测序,提供比质谱更易获取、比Edman降解更易用的替代方案。然而该平台也存在局限:并非所有氨基酸都有对应识别器,部分氨基酸共享识别器,导致氨基酸识别存在模糊性,输出结果为识别器序列而非确定的氨基酸序列,需与参考序列或文库比对。现有理论分析对单分子蛋白质测序能否适切应对蛋白质组的宽动态范围和复杂性存在根本性质疑,且该平台此前主要评估于不超过十种蛋白质的纯化样本。
本研究旨在评估和优化QSi Platinum单分子工作流程,采用V3测序化学,具体目标为:修改现有QSi文库制备方案以实现24小时内完整的样本到答案流程且不过度损失测序性能;评估系统在不同序列和大小蛋白质(从单结构域抗体至类毒素SEB
v)上的性能;确定平台在包括粗制细菌裂解液在内的不同复杂度混合物中的测序能力,以推动QSi平台向需要快速表征复杂生物基质的应用方向发展。
研究人员首先确定了运行性能评估标准。芯片加载率(chip loading, CL)反映测序芯片孔被肽段占据的比例,但仅含单个肽段的孔能提供可靠测序结果。在79次运行中,CL值介于0.2%至80.4%之间,高质量读数(high-quality reads, HQR)介于24至125151之间。CL与HQR呈弱线性相关(R2=0.058),但当CL≤30%时,HQR与CL强相关(R2=0.8),CL高于约10%后对HQR影响极小。总比对数(total alignments, TA)和高质量比对数(high-quality alignments, HQA,FDR<0.05)与HQR相关(R2=0.58),且两者高度相关(R2=0.99)。HQR作为参考非依赖性指标被用作主要运行质量指标,而TA和HQA用于评估目标检测。
在样本到答案方案优化方面,研究人员测试了多种方法优化步骤:使用替代蛋白酶、缩短蛋白质消化和K-连接子(K-linker)偶联孵育时间、缩短测序运行时间。首先,测试胰蛋白酶(Trypsin, Tryp)替代标准方案中的Lys-C:Lys-C在赖氨酸残基羧基端切割,而Tryp在赖氨酸和精氨酸残基羧基端切割,产生更多更短肽段并引入额外测序起始点。但受QSi原始文库制备方案化学限制,K-连接子无法与精氨酸结尾的肽段偶联,导致这些肽段无法固定于芯片;且QSi分析软件基于Lys-C设计,不识别精氨酸切割位点,需将参考序列中精氨酸替换为赖氨酸进行比对。对三个单结构域抗体(V2B3、V2C3、V3A8f)的测试显示,Tryp文库的HQR低于Lys-C文库,但V2B3和V2C3的Tryp文库比对数更高,提示可测序肽段比例增加,而V3A8f两种情况均产生可忽略的比对数,表明高度依赖蛋白质组成。
其次,优化蛋白酶消化时间:对V2B3、V2C3和V3A8f进行16小时与2小时Lys-C消化比较,发现2小时处理的HQR对于V2B3和V2C3变化较小,V3A8f下降2倍,但所有库的比数数均显著提高。该结果与推荐的Lys-C消化时间2-4小时一致,16小时过夜孵育可能导致非特异性过度消化。这一发现表明缩短蛋白酶消化时间并未损害测序质量。
第三,优化K-连接子孵育时间:对SEB
v测试16、3、2、1小时四种K-连接子孵育时间,发现2小时及以上CL值约20%,3小时孵育获最高CL(26.5%)和HQA(2617),2小时孵育HQA下降30%,1小时孵育则完全失败(CL<1%、HQR<100、零比对),表明SEB
v的最小K-连接子孵育时间为2-3小时。
基于上述结果,研究人员设计了改良文库制备方案:采用Lys-C进行蛋白质消化、2小时消化、3小时K-连接子孵育,将总制备时间从37小时缩短至10小时。在测序运行持续时间方面,对SEB
v和V2C3测试2-10小时不同运行时间,发现缩短至8小时HQR下降约20%,6小时和4小时下降约80%,2小时下降超过90%,但2小时运行仍可能产生足够读数进行蛋白质识别,结果取决于蛋白质可测序性和浓度。
研究人员将优化方案应用于不同组成样本的测试。对16个序列多样的单结构域抗体进行测序,CL在34.8%-75.8%之间,HQR中位数10783。但WD11f、WF4、a18、a18四个样本尽管HQR较高,比对数却处于实验噪声水平,可能反映QSi Platinum系统无法测序某些氨基酸序列组成的肽段(如富含脯氨酸的肽段)。对a16、WE11f和SEB
v的重复性分析显示变异相对较高且具有样本特异性,冻融循环未发现与HQR或HQA显著相关,提示变异可能源于环境温度变化或测序架构固有随机性。
在稀释样本测试中,10倍稀释使CL降至5%以下、HQR和比对数降至约10%;100倍稀释则降至无样本加载水平,确定100倍为稀释阈值。
在混合蛋白质与复杂背景测试中,混合的SEB
v和V2C3文库(1:1)产生高HQR和两种参考序列的比对,但各参考HQA较单独运行降低约60%,反映混合样本中各蛋白质肽段浓度降低。在复杂基质方面,测试了表达SEB
v或ACVE的粗制大肠杆菌裂解液、镍亲和层析部分纯化样本、FPLC纯化样本,以及无表达质粒的阴性对照大肠杆菌裂解液。结果显示,从粗制裂解液到部分纯化再到纯蛋白,HQR随纯度增加而增加、文库复杂度降低;目标参考序列的比对数显著高于背景,另一参考序列仅 background 水平;纯度增加比对数提高约一个数量级;阴性对照无外来蛋白表达。这些结果 remarkable,因推荐应用于不超过10种蛋白质混合物的QSi系统,在包含数百种蛋白质的复杂混合物中仍能检测目标蛋白。
在结论部分,研究人员指出改良测序方案显著缩短了样本到答案时间,实现24小时内完整测序流程,且通过优化测序运行时间还可进一步缩短。该方案适用于序列多样的蛋白质,包括单结构域抗体和金黄色葡萄球菌肠毒素,但不同大小和组成的蛋白质可能表现不同。研究还确认了在低于制造商建议浓度的稀释样本和更高复杂度背景中获取序列的可行性,超出当前QSi方案推荐的10种蛋白质混合物限制。然而,当前V3测序化学依赖参考序列进行分析是 clear limitation,从头测序能力非常有限。未来V4测序试剂盒有望改善丙氨酸、丝氨酸检测,实现甘氨酸检测,并扩展含脯氨酸肽段的可测序范围。要推进QSi技术实现真正的从头蛋白质测序,需要显著改进的化学方法和数据 processing 技术的进步,特别是利用快速发展的机器学习工具。此外,还需进一步突破修饰氨基酸和非蛋白质源氨基酸的测序挑战。总体而言,QSi Platinum技术在需要快速高分辨率表征复杂生物样本以改善基于蛋白质的疾病诊断技术的蛋白质组学领域具有应用潜力。