综述:识别和研究微肽的方法学工具箱:从基因组到功能
《Biochemistry (Moscow)》:Methodological Toolbox for Identifying and Studying Micropeptides: From Genome to Function
【字体:
大
中
小
】
时间:2025年12月06日
来源:Biochemistry (Moscow) 2.3
编辑推荐:
这篇综述系统梳理了当前用于发现和功能解析微肽(micropeptides)的方法学工具集。文章重点介绍了基于生物信息学、核糖体图谱(Ribo-Seq)、质谱(mass spectrometry)和表型筛选(phenotypic screenings)的发现策略,以及用于验证其存在、定位、相互作用和功能的多种技术(如亲和标记、Co-IP)。作者强调,尽管面临微肽分子量小、丰度低等挑战,但整合多组学(multi-omics)方法是全面绘制微肽组(micropeptidome)图谱的关键,这类分子在调控细胞过程(如信号转导、代谢、癌症)中具有巨大潜力。
任何延伸的核苷酸序列,无论是天然的还是随机的,都包含大量的开放阅读框(ORF)。历史上,大型基因组注释联盟主要关注编码蛋白质的ORF,而忽略了编码短于100个氨基酸残基肽段的小开放阅读框(sORF)。长期以来,sORF被认为是无法编码稳定功能肽段的基因组“噪音”。
这一观念随着高通量测序技术的出现而彻底改变,特别是核糖体图谱(Ribo-Seq)技术,它能够在单核苷酸分辨率下全局性地绘制RNA的翻译区域。结合蛋白质组学数据,这些研究为多种生物(包括人类)中数千个sORF的翻译提供了有力证据。功能研究表明,许多sORF的翻译产物——微肽——参与调控基本过程,如信号传导、代谢、稳态、肌肉活动、DNA修复和免疫反应。此外,微肽还被发现影响包括癌症在内的多种病理的发展。换言之,微肽代表了蛋白质组的“暗物质”,具有显著的调控潜力。
由于微肽具有细胞丰度低、潜在不稳定性以及难以生成特异性抗体等特性,寻找和表征这些分子面临方法学上的挑战,这促使研究者调整现有方法并开发新策略,以实现对微肽的可靠鉴定、确认和功能分析。
sORF是DNA或RNA中的短核苷酸序列(从起始密码子到终止密码子不超过100个密码子)。大量sORF位于蛋白质编码基因内部,特别是在mRNA的5‘-非翻译区(5’-UTR,即上游ORF,通常对主编码序列的翻译起调控作用)、3‘-非翻译区(3’-UTR,下游ORF)或编码序列的替代阅读框中。此外,许多sORF在最初被归类为非编码RNA的转录本中被发现,包括长链非编码RNA(lncRNA)、初级microRNA转录本和环状RNA。
sORF可以作为短蛋白质(称为微肽或微蛋白)合成的模板。二十多年来,已有大量参与胚胎发生、代谢和DNA修复的微肽被描述。一些微肽已知会促进癌发生,而另一些则充当肿瘤抑制因子。具有神经保护特性并能抑制阿尔茨海默病发展的微肽也已被鉴定。
例如,生理活性微肽DWORF作为钙ATP酶SERCA的激活剂,负责将Ca2+离子从细胞质转运到肌质网(这是肌肉松弛所必需的过程)。在心肌中过表达DWORF会增加SERCA活性,改善心肌收缩力并影响钙稳态。相反,微肽肌调节素(MLN)、受磷蛋白(PLN)和肌脂蛋白(SLN)则抑制SERCA并降低其活性。
寻找和鉴定功能性微肽是一个多步骤过程,始于对基因组和转录组进行大规模筛选以寻找潜在候选者。历史上发展了三种主要方法:生物信息学序列分析、通过核糖体图谱进行全局翻译定位,以及使用基于质谱的蛋白质组学直接检测肽段。在过去十年中,功能性表型筛选也被加入此列,可以直接识别参与特定细胞过程的微肽。
生物信息学搜索sORF是一项非平凡的任务。早期用于预测编码ORF的基因组分析方法将最小蛋白质产物长度设置为100个氨基酸残基。这导致丢失了短于该阈值的功能肽的信息,尽管已知此类分子的存在。
首先,基于跨物种序列进化保守性的生物信息学搜索sORF是一种方法。这种方法的一个例子是使用Ka/Ks度量,它反映了不同物种核苷酸序列比对中密码子的非同义替换与同义替换的比率,并指示序列是否处于选择压力之下。后来开发了更先进的方法,例如PhyloCSF,它使用编码和非编码基因组区域中的密码子替换频率。
为了提高预测的可靠性,还应考虑其他指示序列进化保守性的特征,例如不存在导致移码的插入或缺失、编码区边缘序列保守性降低等。然而,对于短序列,此类分析的统计显著性较低。此外,许多sORF是物种特异性的或在基因组中从头产生,因此功能肽可能不表现出序列保守性并在分析中被遗漏。
sORF的鉴定也可以通过分析编码序列的已知特征来实现,例如其密码子组成、GC含量等。早期算法之一涉及通过比较编码和非编码基因组区域中的密码子频率来识别编码序列。另一种方法使用DNA序列的六个数学度量来评估sORF的编码潜力。基于机器学习的分析已成为近年来的常用研究工具,它允许识别大型数据集中的复杂非线性模式,并整合分析序列的各种特征(包括其进化保守性、预测结构和其他计算度量)以构建高精度预测模型。
大多数现代关于编码sORF鉴定的研究使用相同的方法分析高通量测序数据——核糖体图谱(Ribo-Seq)和RNA测序(RNA-Seq),这显著提高了结果的可靠性。
高通量核糖体图谱于2009年首次提出。在该方法的经典版本中,细胞用放线菌酮处理,放线菌酮与60S核糖体亚基的E位点结合,通过阻止其在翻译延伸阶段易位来抑制翻译。然后裂解细胞并用核酸酶处理以切割RNA,而被停滞核糖体保护的区域得以保留。这些大约30个核苷酸长的片段称为核糖体足迹。它们被纯化并使用高通量方法进行测序。
将获得的序列映射到基于RNA-Seq数据组装的转录组上,以获得核糖体图谱,即在翻译停止时mRNA上核糖体的单核苷酸分辨率位置。该方法的主要优点是能够反映特定时间点特定mRNA的翻译水平,从而允许研究响应外部因素或特定细胞过程中基因表达的快速变化。
尽管核糖体图谱具有广泛的能力,但它也有一些局限性。特别是,实验结果很大程度上取决于样品质量。最常见的问题是80S核糖体共分离大的核糖核蛋白复合物和非编码RNA,导致假信号。此外,由于核糖体RNA的污染,所获文库中足迹读长的百分比有限。另一个基本问题是某些抗生素的作用会扭曲核糖体图谱。
其他困难与sORF的分析有关。由于sORF的长度,如果附近有几个潜在的起始密码子,有时无法准确确定翻译起始位点。当sORF与主ORF重叠或位于其内部时,会出现另一个问题。
为了确定起始密码子的确切位置,研究人员使用翻译起始抑制剂。这些化合物不会破坏延伸或翻译终止,但主要使核糖体停滞在翻译起始区,因此核糖体图谱可提供有关核糖体位置的准确信息。第一个用于绘制翻译起始位图的抗生素是三尖杉酯碱,它与游离60S核糖体亚基的A位点结合。在翻译起始过程中形成80S核糖体后,三尖杉酯碱阻止起始tRNA上的甲硫氨酸转移到位于A位点的氨酰-tRNA,导致核糖体停滞在翻译起始位点。重要的是,三尖杉酯碱不与80S核糖体中的60S亚基结合,不影响翻译延伸和终止;因此,获得的足迹显示了翻译起始位点的位置。然而,在使用三尖杉酯碱时,发现一些已识别的足迹位于起始密码子下游区域,这在某些情况下无法为起始位点作图提供足够窄的峰。使用GTI-Seq(全局翻译起始测序)方法可以更准确地识别起始密码子,该方法使用乳酸替霉素来停滞翻译起始。乳酸替霉素阻断80S核糖体的空E位点,导致核糖体在翻译起始后立即停滞。在该方法的后续修改版QTI-Seq(定量翻译起始测序)中,裂解的细胞用乳酸替霉素短时间处理,然后加入嘌呤霉素以引起延伸核糖体的解离。这种方法可以实现对翻译起始位点的最大覆盖,同时减少来自延伸核糖体的噪音和与细胞长时间孵育乳酸替霉素相关的人工假象。
尽管核糖体图谱可以识别翻译区域,但它无法确定已识别的sORF是编码性的、调控性的还是非功能性的。编码潜力的间接证据可以通过候选序列的生物信息学分析获得。细胞中编码肽的存在可以通过质谱方法证明。
基于质谱的蛋白质组学分析允许直接检测sORF的翻译产物。与经典蛋白质组学一样,可以分析蛋白酶消化后的肽片段(自下而上策略)或完整的蛋白质(自上而下策略)。在这两种情况下,微肽的鉴定都面临两个主要障碍。首先,由于微肽分子量小、稳定性低和细胞丰度低,需要使用特殊的样品制备程序来富集样品中的微肽。其次,鉴定先前未注释的微肽需要使用特殊的参考数据库,因为基于Ensembl、RefSeq或UniProt的数据库不包含大多数潜在的微肽。
为防止微肽降解,将细胞裂解液加热至95°C以灭活蛋白酶。在某些情况下,此程序之后用三氯乙酸沉淀大蛋白质。所得样品通过聚丙烯酰胺凝胶电泳(PAGE)、尺寸排阻色谱或反相色谱进行分级分离,以富集低分子量蛋白质。已经开发了更先进的预分级方法,例如GELFrEE(凝胶洗脱液体分馏捕获电泳,即在含有聚丙烯酰胺凝胶的柱上进行分离)、ERLIC(静电排斥亲水相互作用色谱)等。根据所选策略,蛋白质随后要么进行蛋白酶(最常用胰蛋白酶)消化以进行自下而上分析,要么直接通过液相色谱-串联质谱(LC-MS/MS)进行分析。
微肽的鉴定基于将实验质谱图与理论质谱图进行匹配。然而,构建数据库是一个问题,因为基因组或转录组所有阅读框的计算机翻译几乎涵盖了所有潜在的微肽,但所得数据库的大小是标准数据库的数十倍,导致计算复杂度高且误识别概率大。因此,使用基于RNA-seq和Ribo-Seq数据的有限数据库,但这并不排除出现假阳性结果。为了确认已鉴定的微肽,可在反应中加入其同位素标记的合成类似物,该类似物具有相同的质谱图,但相对于验证肽的谱图发生偏移。
可以使用自上而下蛋白质组学方法研究微肽,该方法对于分析由可变剪接和翻译后修饰形成的微肽的各种蛋白质型特别有用。例如,通过主要组织相容性复合体(MHC-I)呈递的微肽的鉴定允许检测完整肽段。使用通过癌细胞核糖体图谱获得的翻译序列数据库,通过质谱鉴定了数千个先前未注释的肽段。
除了序列和翻译数据分析外,功能性sORF还可以通过表型筛选发现,表型筛选可分为两种方法:功能丧失筛选和功能获得筛选。
CRISPR/Cas9系统已成为功能丧失筛选的主要工具。在这些实验中,单向导RNA(sgRNA)将Cas9核酸酶引导至特定的sORF区域,这得益于sgRNA中的20个核苷酸引导序列以及目标DNA区域下游紧接着的前间区序列邻近基序(PAM)的存在。Cas9引起的双链断裂主要通过非同源末端连接(NHEJ)修复,导致核苷酸的插入或缺失,从而可能引起移码和提前出现终止密码子,阻止功能性微肽的生物合成。
全基因组和靶向筛选使用针对大量sORF的sgRNA文库。文库通常通过慢病毒载体递送到细胞中,允许在单个实验中灭活数千个基因组位点。从总体群体中筛选出因sORF敲除而产生特定表型的细胞,并对含有sgRNA序列的盒进行测序,以鉴定其敲除引起细胞表型变化的sORF。对特定sORF的多个sgRNA的结果进行平均,可以考虑到CRISPR/Cas9潜在的脱靶效应。
CRISPR介导的sORF失活后观察到的表型范围很广,从细胞生长、活力、形态、信号通路和药物耐药性的变化,到与其他分子的相互作用。每次特定实验中会选择用于筛选的特定表型。
迄今为止,基于CRISPR/Cas9的表型筛选尚未被普遍接受作为鉴定功能性微肽的方法。然而,一些功能性微肽已在基于Ribo-Seq数据的增殖筛选中被发现。
表型分析的另一种方法涉及外源表达来自预编译文库的编码肽的构建体,这些构建体克隆到质粒或慢病毒载体中。该方法的优点是它可以分析任何序列,而不需要存在特定基序(如CRISPR/Cas9的情况)。然而,这种方法与常用的过表达蛋白质研究其功能的方法具有相同的缺点。
尽管研究微肽的方法与研究常规蛋白质的方法相似,但研究这两类分子的整体方法有所不同。与“经典”蛋白质不同,大多数微肽不包含潜在的结构域,尺寸小,且在细胞中浓度低,这需要调整标准方法。此外,如果微肽由lncRNA编码,则可能需要区分转录本本身与其编码的肽段的功能角色。微肽研究包括三个主要阶段:候选物选择、其存在确认和功能确定。
主要有两种寻找潜在候选物的方法。第一种是分析通过高通量方法获得的数据(见综述第一部分)。通常,这些方法仅提供微肽存在的间接证据,因此必须用质谱和Ribo-Seq数据补充。一种完全不同的方法是手动搜索sORF并对感兴趣的转录本进行注释。例如,微肽MIEF1-mp是在分析编码已知蛋白质产物的MIEF1基因mRNA的5‘-UTR序列时发现的。这种方法的另一个例子是在分析乳腺癌细胞中lncRNA的差异表达时发现了癌症相关肽PACMP。
第二阶段是确认微肽在细胞中的存在,因为sORF翻译的蛋白质产物可能不稳定。在某些情况下,可能需要进行RACE(cDNA末端快速扩增)以确认细胞中目标转录本的序列。微肽生物合成的直接证据可以通过质谱法获得。例如,在内源性肽免疫沉淀后,通过质谱法确认了APPLE肽的存在。然而,在大多数情况下,通过使用与外源表达的带有亲和标签或荧光蛋白融合的微肽,可以在更简单的实验中确认所研究sORF的翻译和稳定蛋白质产物的生物合成。
确认微肽生物合成后的下一步是阐明其功能。用于研究微肽的方法几乎与研究常规蛋白质的方法相同,包括亲和标记、Western blotting、免疫细胞化学(ICC)、邻近标记等(图2),尽管由于微肽尺寸小,这些经典方法大多必须进行修改。
为了确认微肽的生物学功能,研究人员可以生成使用基因组编辑系统(CRISPR/Cas9或CRISPR-Cas12a)敲除相应编码序列的细胞。分析这些细胞中的表型变化可以揭示微肽的功能。然而,在某些情况下,由于需要PAM基序,选择向导RNA可能是不可能的。常用的表型标记是细胞增殖速率、细胞周期变化等。微肽生物学意义的额外确认是通过在其被敲除的细胞中外源表达该微肽来恢复表型。
一种劳动强度小得多的抑制目标微肽表达的方法是RNA干扰(RNAi)介导的敲低。因此,小干扰RNA已被用于研究从lncRNA翻译的微肽。然而,对于由mRNA编码的sORF,RNAi介导的敲低将导致整个mRNA分子的降解,因此,观察到的效应可能与该mRNA主要翻译产物表达的减少有关。在这种情况下,可以使用针对sORF起始密码子周围区域的2‘-O-甲基反义RNA寡核苷酸来抑制微肽的生物合成,但不抑制主要蛋白质产物的合成。
研究微肽的另一个重要方法是引入亲和标签。微肽的小尺寸对标签的选择施加了限制,因为对于许多标签而言,引入的序列大小与肽本身的大小相当。此外,标签的电荷也起着重要作用。标签选择不当可能会破坏微肽的天然定位和结构或其与伴侣蛋白的相互作用。
与微肽一起使用的最常见标签是小的蛋白质序列,例如HA、FLAG、6xHis。在一些研究中,使用GFP或其他荧光蛋白。荧光蛋白可以通过显微镜和Western blotting轻松检测,但存在标记微肽在细胞中的功能被破坏的风险。
CRISPR/Cas9介导的内源性标记也用于确认微肽在细胞中的存在。将亲和标签编码序列直接插入基因组位点,允许检测从天然启动子表达的微肽,这排除了与微肽过表达相关的假象,是验证其生物合成的可靠方法。
Western blotting是检测和半定量测定蛋白质的标准方法。然而,微肽的小尺寸限制了适合的高抗原性表位的数量,使得针对微肽生成抗体变得困难。然而,对于一些肽(长度超过50个氨基酸),已成功获得抗体并用于Western blotting。在大多数情况下,微肽用各种亲和标签(见上文)进行标记以便后续检测。需要注意的是,细胞中天然或内源性标记的微肽含量可能非常低,这使得它们的检测极具挑战性。
另一个限制是用于分离细胞裂解物中蛋白质的聚丙烯酰胺凝胶的分辨能力。为了提高低分子量蛋白质的分辨率,研究人员使用Tris-甘氨酸缓冲系统。例如,它被用于检测FLAG标记的HOXB-AS3微肽(7 kDa)和肌调节素(10 kDa)的天然形式。然而,小蛋白质与用于转印的聚偏二氟乙烯和硝酸纤维素膜结合较弱,并且在多次膜洗涤过程中容易丢失。在这种情况下,可以应用替代技术,例如使用甲醛或戊二醛通过交联封闭蛋白将蛋白质固定在膜上。
微肽的定位有助于阐明其蛋白质伴侣和生物学功能。位于细胞核中的微肽很可能与核蛋白相互作用,例如转录因子或染色质组织蛋白。
确定微肽定位最常用的方法是免疫细胞化学,它依赖于使用对目标抗原具有高特异性的抗体。该程序通常始于细胞固定以保存其形态并防止细胞组分降解。然后对细胞进行透化以允许抗体进入细胞。通常,分析中使用的一抗是未标记的,并使用与荧光团偶联的二抗进行可视化。
与Western blotting类似,该方法需要针对目标微肽的抗体,这可能是一个障碍。例如,使用针对天然微肽MP31的抗体来确定其线粒体定位。更常见的是,对外源表达的标记微肽进行免疫细胞化学染色。
另一种广泛使用的方法是将微肽与荧光蛋白(GFP,mCherry等)融合,这允许在没有抗体的情况下直接在细胞中可视化它们。然而,由于标签尺寸大,它可能会破坏微肽的特性。为了克服这个限制,可以使用分裂荧光蛋白,其中荧光蛋白(如GFP)被分成两个无功能的片段——大片段GFP1-10和小的GFP11(由16个氨基酸组成,用于标记目标肽)。这些片段的互补恢复了蛋白质的三级结构及其荧光。该系统被用于确定PIGBOS微肽的定位,其中用三个GFP11重复标记的肽与GFP1-10共表达。
化学荧光标签对微肽天然定位的影响最小。然而,由于需要对微肽进行化学合成以用荧光配体(例如FITC)进行化学标记,此类实验在技术上可能很困难。这种标记方法被用于确定MP155微肽的定位。
MicroID方法是另一种基于标记的方法,用于识别具有特定定位的新微肽。该技术(BioID方法的修改版,见下文)使用靶向特定细胞区室的生物素连接酶。分离共价复合物后,通过分级分离选择那些含有与低分子量蛋白质交联的连接酶的复合物,并通过质谱法鉴定结合的微肽。
鉴定微肽的蛋白质伴侣对于理解涉及这些微肽的生物学机制至关重要。研究体内蛋白质-蛋白质相互作用最广泛使用的方法是Co-IP,其中表达带有亲和标签(最常见的是FLAG或HA)的微肽的细胞在温和条件下裂解,以保持现有的蛋白质复合物。将针对亲和标签的特异性抗体添加到细胞裂解物中,以结合标记的微肽及其所有与之相互作用的蛋白质。所得的免疫复合物从溶液中分离出来,通常使用包被有抗体结合蛋白A或G的琼脂糖或磁珠。经过彻底洗涤以去除非特异性结合的蛋白质后,洗脱捕获的复合物并进行鉴定,最常用的是免疫沉淀质谱(IP-MS)或Western blotting。该方法用于证明CYREN微肽与Ku70/80及其他参与DNA修复的蛋白质的相互作用。Co-IP的主要要求是蛋白质复合物具有足够的稳定性以承受裂解和洗涤过程。然而,微肽与其蛋白质伴侣的结合通常不够强。
Pull-down是一种与Co-IP类似的方法,不同之处在于“诱饵”通常是纯化的、带有标签的微肽,固定在固相上。这可以通过外源表达(例如,带有GST或6xHis标签)或化学合成(通常添加生物素标签)来实现。固定的诱饵与细胞裂解液或纯化蛋白质溶液一起孵育。与诱饵结合的蛋白质保留在载体上。洗涤载体,然后洗脱蛋白质并进行分析。例如,使用固定在链霉亲和素珠上的生物素化P155肽进行的pull-down实验揭示了该肽与HSC70伴侣蛋白的相互作用。与Co-IP不同,pull-down便于在体外确认直接的蛋白质相互作用,并且不需要特异性抗体。然而,结果可能没有考虑到细胞环境的影响或体内相互作用所必需的翻译后修饰。
为了检测体内较弱或瞬时的相互作用,已经开发了邻近标记方法,例如BioID和APEX。这些方法基于表达一种由目标微肽与特殊酶融合组成的嵌合蛋白。通过添加特定底物来激活该酶,这些底物产生短寿命的反应性分子(通常是生物素衍生物),它们共价结合到嵌合蛋白附近(几纳米内)的蛋白质上。BioID方法使用突变体生物素连接酶BirA*,在生物素和ATP存在下,产生活化的生物素-AMP,与邻近蛋白质的赖氨酸残基反应。在APEX方法中,抗坏血酸过氧化物酶在生物素-酚和短脉冲的过氧化氢存在下,迅速(几分钟内)产生生物素-酚氧自由基,标记酶附近的酪氨酸残基。标记反应后,裂解细胞,使用链霉亲和素分离生物素化蛋白质,并通过质谱进行鉴定。APEX标记方法被用于搜索线粒体肽MIEF1的蛋白质伴侣。APEX标记还可以提供关于微肽亚细胞定位及其功能环境的信息,如对核仁中C11orf98的研究所示。
X射线晶体学很少用于确定微肽的三维结构,因为它需要将蛋白质或肽结晶成有序的三维晶格以获得适合结构解析的衍射图案。由于尺寸相对较小,微肽通常无法形成适合获得高分辨率衍射图案的有序晶体。此外,大多数微肽没有独立功能,而是作为蛋白质伴侣的调节剂和蛋白质复合物的结构单元,因此肽本身的晶体结构通常信息量不大。然而,X射线晶体学可用于确定肽与蛋白质伴侣复合物的结构,例如受磷蛋白与SERCA复合物的结构。
稳定的二级结构的存在可以表明微肽在细胞中的稳定性及其生物学功能。确定蛋白质二级结构的一个相对简单的方法是圆二色谱(CD)光谱,它基于手性分子对圆偏振光的差分吸收。由手性氨基酸组成的蛋白质具有光学活性并表现出特征性的CD光谱。虽然该方法不能直接确定三级结构,但它对蛋白质中特定二级结构元件的存在很敏感,可用于阐明微肽中存在的二级结构类型。这种方法被用于描述CYREN肽与Ku70/Ku80蛋白质复合物的相互作用。
解析肽三级结构信息量更大的方法是核磁共振(NMR)。大多数微肽分子量小(高达11 kDa),因此是NMR进行结构确定的良好对象。该方法用于表征DWORF的结构,并揭示了激活SERCA所必需的由脯氨酸诱导的弯曲。
对sORF编码的微肽的研究扩展了我们对基因组编码潜力和蛋白质组复杂性的理解。在过去的10-15年中,已经积累了关于微肽功能作用的大量证据。因此,sORF不再被视为非功能性序列,因为已经清楚它们为细胞过程的调控提供了一个新的层面。这种范式的转变之所以成为可能,得益于分子生物学方法的先前发展。核糖体图谱揭示了sORF翻译的规模,而质谱样品制备的改进允许直接检测其肽产物,基于CRISPR/Cas9的基因组编辑为功能研究提供了强大的工具。
尽管取得了显著进展,但可靠地区分编码稳定且功能良好的微肽的sORF与翻译但非功能的sORF或作为翻译调控元件起作用的sORF仍然很重要
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号