mRNA 5`端二级结构的预测法

【字体: 时间:2000年09月01日 来源:

编辑推荐:

  

mRNA 5`端二级结构的预测法

郑仲承
(中国科学院上海生物化学研究所,上海 200031)

关键词:mRNA;二级结构;预测
中图分类号:Q522+.2      文献标识码:E

       研究mRNA 5`端二级结构有什么重要性呢?下面的例子可以说明这个问题:如果在接近剪接位点的编码序列内有二级结构,就会影响基因的转录;在引物中有二级结构(如发夹)就会抑制PGR反应;如果在合成的基因序列的5`末端有二级结构会干扰它在表达系统的翻译,降低基因表达产物的产量,这不仅提高了生产成本,还给生产工艺等带来极大麻烦。此外,RNA5`末端形成二级结构所需要的能量也影响基因产物的产量。所以,要想在基因表达系统中得到大量的基因产物就必须考虑这些问题,并对所克隆基因5`末端的结构和它形成二级结构所需要的自由能进行分析,并在此基础上对氨基酸的简并密码子进行选择,以获取最满意的结果。可见,这是一个在理论上和实践上都有重要意义的问题。在基因工程产品的开发过程中,对这些问题的认识与运用具有不可估量的经济价值。
1.理论问题
       
核酸的二级结构是如何形成的呢?我们知道,DNA双螺旋是通过互补碱基对(A-T和G-C)之间的氢键和这些键的相互作用形成的。从它们之间的力可以预测在两个互补序列间形成的双螺旋的稳定性。虽然RNA主要是单链核酸,但是在它的某些区段内部会因碱基配对而形成一些二级结构。在同一个分子内,如果一段碱基序列随后与之互补的序列,则链会反向折叠,在分子自身产生一个反平行的双链结构,即发夹结构。发夹结构由茎(形成碱基对的双链区)和环(带有不配对碱基的序列)所组成。如果分子内的互补序列相距较远,它们并列而形成的双链区就会产生有很长单链环的茎。
       我们检测二结构的能力有限。虽然碱基对的总量反映了一个分子的生物物理特性,而且单链和双链区对一些核酸酶有不同的敏感性,这些都可以利用来分析分子结构,但是效率不高。
       有一些规则可以预测分子的特殊碱基对结构。这时候,只要把RNA看作是被隔离的、稳定的结构,而忽略其它会干扰这个结构的因素(如与蛋白质的结合等)。当然,这些结果只是告诉我们这段RNA是否会形成特殊结构而巳。
       这些规则的基础是计算出形成每个结构所需要的自由能。自由能是热力学常数,它指进行一个反应所需要的能量或所释放的能量,以kcal/mol度量,表示为△G。需能反应的△G是正值,放能反应的△G是负值。正值和负值只表示反应是需能或放能而巳,与能量的大小无关,即正与负本身不是大小的量度,而表示能量的方向:+是吸入,-是放出。整个反应的能量度量可由△G的绝对值看出。
        形成碱基对结构时必须释放能量(注意,此时△G为负值)才能使这个结构稳定存在。所以,这个结构的稳定性是由形成它时所释放能量的大小决定。结构形成时放出的能量越多(△G的绝对值越大),要拆开它时需要加入的能量就越大,或者说越难将它拆开,即这个结构就越稳定。比如,某个分子可以形成两个二级结构,其一△G是-21 kcal/mol,另一是-35 kcal/mol,则后者更容易形成,因为形成它时放出更多能量,使得在拆开它时就需要给予更多能量,即它不容易被拆开。可见,只要知道一个结构的总自由能,就可以预测它的稳定性。也可见,如果希望一个基因的转录产物(mRNA)易于翻译为蛋白质,就要使它的5`区的二级结构有比较低(注意,这是指绝对值)的总自由能。
       怎么计算一个结构的总自由能呢?计算一个结构的总自由能(△Gtotal)的一般公式为:
                         △Gtotal=△Gi+Σ△Gx+Σ△Gu
在这公式中,△Gi是双螺旋起始的自由能,即形成第一个碱基对所需要的能量。这时候的反应是吸收能量,即△G是正值,约+3.4 kcl/mol。这个值只用于分子间形成的双螺旋,不用于分子内双螺旋,如发夹等。所以,在计算RNA形成自由能时,这个数字一般不用。Σ△Gx指参与形成双螺旋时每个配对碱基进行配对反应时自由能的总和,它由每个碱基对的自由能绝对值相加而成。因为形成碱基对是释放能量的,所以它是负值,其大小与配对碱基的性质(A-T或G-C)有关,也因配对碱基周围环境(是AT、TA、GC还是CG)而不同。Σ△Gu是在双螺旋的延伸过程中,当某个碱基与对侧碱基不互补时所形成的结构的自由能总和。为了将这些碱基维持在不配对状态,即挤出状态,需要给予能量,所以它是正值。当发夹内有两个不配对碱基时,△Gu为+0.8 kcal/mol;有一个被挤出的碱基时是+3.3;在含有5--12个碱基的发夹环时为+4.4。
    为了形成一个双螺旋,总反应自由能△Gtotal必须是负值。实际上,形成每个碱基对时所释放的自由能的总和(Σ△Gx)一定会大大超过起始双螺旋所需的能量△Gi,也会克服不配对区形成时所需要的能量(Σ△Gu),使上述公式的总结果为负值。
        一个潜在的双螺旋的稳定性取决于自由能的计算结果,它必须有足够的负值,否则二级结构就不能形成。
        在计算形成一个碱基对所释放的能量时,我们必须考虑两个因素:其一是,由于形成每个氢键数量的多少对螺旋的稳定性有直接影响。因为G-C配对时形成三个氢键,而A-T的只有两个,所以G-C对比A-T对稳定。这样一来,双螺旋中G-C对含量越多,越稳定。第二,由于水波从螺旋内部挤出,使得螺旋内部是疏水环境。因此,堆积在螺旋轴上的碱基之间会发生疏水相互作用,即碱基堆积的自由能还取决于相领含氮碱基之间的特殊结合。这样一来,总自由能就不仅仅是碱基对每种可能的配对结合时的总和。总之,每个反应释放出来的自由能的确切数量取决于各个碱基对放出能量的总和,即需要计算出碱基对每个可能的双联体的自由能,而这个计算受到组成的序列环境这两个因素的影响。正如表1所示,只含A-T(U)对的双联体,△G为-0.9 -- -1.1;含一个A-U和一个G-C的为-1.7 -- -2.3;只含G-C的为-2.0 -- -3.4 kcal/mol。在RNA中也会形成不合规则的碱基配对,如G-T(U),取决于其邻近碱基对的情况,它的△G为-0.5 -- 1.5 kcal/mol。

表1  通过双联体序列测定碱基对的自由能


自左向右:
上面一排由5`3`;下面一排是其互补序列由3`5`
双联体序列              △G(kcal/mol)

A--U双联体                            
AA                        -0.9
UU                            
AU                        -0.9
UA                            
UA                        -1.1
AU                            
混合双联体                           
CA                        -1.8
GU                            
CU                        -1.7
GA                            
GA                        -2.3
CU                            
GU                        -2.1
CA                            
G--C双联体                         
CG                        -2.0
GC                            
GC                        -3.4
CG                            
GG                        -2.9
CC                            

      正在生长的双链区所释放的自由能可以计算为每个相领碱基对的双联体自由能的总和,即双链区内每个碱基对的自由能在计算时要考虑到与之相邻的碱基对的情况。
        在计算RNA二级结构时还有一些应当考虑的其他因素。与双链DNA有比较完好的双链结构不同,RNA通常是在单链之间形成双螺旋区,而且碱基之间的互补性不太完善,于是一个双链区的整合性常被几种情况所打断:①发夹环----如果双螺旋是通过折返配对方式形成的,即有直接相邻的互补序列时,在双链区末端就有发夹环 ;②内环----如果链内的某一个区有潜在的互补性,但是还不足以形成碱基对时,就会形成内环 ;③凸环----如果潜在的互补区中的一个有不配对碱基时,就会形成凸环 。所有这些不对称区都会妨碍双螺旋的形成。这些影响在计算自由能时应当加以考虑,并设定每类造成结构破裂的自由能是正值,总参数为Σ△Gu。换言之,在这样一个特殊结构中,维持这些区域需要输入能量,而这些能量又必须被碱基配对和堆积所放出的自由能所抵消。
2.实用技巧
        由上述可知,如果你需要预测某一个基因的表达情况,并据此通过密码子的简并设计来提高其产物的数量,就需要对其转录物(mRNA)5`区的开头部分进行二级结构分析,计算出形成各种可能结构所需总自由能,选择更佳方案。那么,有几种可操作的办法。
      (1)手工运算
    将mRNA有关区段各种可能的二级结构一一画出来,然后进行计算,看看它们的总自由能各是多少,从中选出最好的。由双链序列计算其形成所需自由能的实例如下:总△G是形成它时所释放的自由能或将单链区维持为有限制的构象所需要的自由能。如

计算结果:形成这个二级结构的总自由能是:
                      Σ△Gx+Σ△Gu=△G-29.4+ +12.6=-16.8 kcal/mol
    (2)用计算机软件计算
    如果你有相应的软件,如DNAsis,就可以将序列直接输入,它就会告诉你这个二级结构的总反应自由能是多少。据此,你可以改变密码子,并再次输入,比较它们的总反应自由能,直到找到合适的序列和结构为止。
    (3)通过计算机网络索取
    其实,上面所谈论的理论问题是Zuker和Stieger在1982年以来不断研究的成果,已经有多篇相关论文可以参阅。以信息时代,发明人更采用了免费的计算机网络系统,为广大人员服务。如果你有这方面的要求,可以直接将你的序列和结构输入下列网址,就可以在很短的时间内得到你所需要的数据:http://www.Ibc.wustl.edu/-zuker/rna/

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号