基因变异注释的困境与突破:基于表达转录本的精准解读新策略

《NAR Genomics and Bioinformatics》:To be or not to be a protein coding mutation, that’s the question!

【字体: 时间:2025年11月23日 来源:NAR Genomics and Bioinformatics 2.8

编辑推荐:

  本推荐针对基因变异注释中长期存在的编码/非编码分类错误问题,介绍了研究人员通过整合DNA与RNA测序数据开展的突变重新注释研究。该研究系统阐述了基于组织特异性表达转录本进行变异注释的新范式,揭示了高达22%的所谓"编码突变"实为非编码启动子突变的重要发现,为精准医学时代的变异功能解读提供了关键技术路径。

  
在基因组学研究的浩瀚海洋中,遗传变异的精准注释一直是决定研究成果可靠性的基石。然而,这座看似坚固的基石下却潜藏着令人担忧的裂缝——许多被长期认定为蛋白质编码区的突变,最近被证明实际上是非编码变异。这种认知偏差不仅影响了基础研究的准确性,更对临床诊断和治疗策略产生了深远影响。
问题的核心在于传统的变异注释方法过度依赖参考转录本,而忽视了组织特异性表达的现实情况。研究人员发现,这种"一刀切"的注释方式导致大量变异被错误分类。例如,一个在黑色素瘤中被认为是BCL2L12致癌基因同义突变的变异,实际上是非编码的启动子突变,靶向IRF3和BCL2L12基因的共享调控区域。类似的误注释案例在KNSTRN、BAP1等多个基因中得到证实,凸显了问题的普遍性和严重性。
为了破解这一难题,发表在《NAR Genomics and Bioinformatics》上的这项研究提出了一种革命性的解决方案:通过整合DNA测序和RNA测序数据,将突变注释建立在组织特异性表达的转录本基础上。这种方法不仅能够纠正历史性的注释错误,更能为理解突变的功能机制提供全新视角。
研究团队主要运用了以下关键技术:基于TCGA等公共数据库的癌症基因组数据挖掘;利用GTEx转录本浏览器进行组织特异性表达谱分析;通过短读长和长读长RNA测序技术进行转录本定量;应用IGV可视化工具进行人工验证;采用Salmon、VEP等生物信息学工具进行自动化变异注释;运用CRISPR-Cas9基因编辑技术构建等基因模型进行功能验证。
重新注释编码变异为非编码基因启动子突变
研究人员通过分析黑色素瘤RNA测序数据发现,传统上被认为是BCL2L12基因同义突变的chr19:49665874 C>T变异,实际上在表达的转录本中对应的是上游非编码区域。更为重要的是,该变异是一个突变簇的一部分,靶向IRF3和BCL2L12基因的共享启动子区域。通过DNase-seq数据和转录因子结合预测工具,研究证实这些非编码突变能够破坏多个ETS家族转录因子的结合 motif,导致IRF3、BCL2L12及其下游基因的表达下调。
类似的,在KNSTRN基因中,原本被注释为错义突变的chr15:40382906 C>T变异,在黑色素瘤中实际上位于表达的KNSTRN转录本的上游区域,属于启动子突变簇的一部分。虽然该单个变异对转录因子结合的影响较小,但同一簇中的其他变异能够显著降低报告基因活性,表观基因组分析也显示该区域在黑色素瘤中具有活跃的调控元件特征。
重新注释编码为内含子剪接位点突变
第二类注释错误涉及影响转录本表达的剪接位点突变。研究表明,野生型等位基因可能位于编码区,而突变等位基因却能够诱导选择性剪接,产生新的转录本。在这种情况下,突变相对于新表达的转录本实际上是内含子非编码区。
Jayasinghe等人的系统分析发现,在33种癌症类型的8656个肿瘤样本中,37%的剪接位点创建突变(SCM)被错误地注释为错义或同义突变。典型的例子是BAP1基因中的chr3:52408496 T>C变异,传统注释为错义突变p.Asn78Ser,但RNA测序分析显示该变异创建了新的剪接供体位点,导致表达缺失9个氨基酸的转录本,虽然转录本水平相当,但蛋白质表达显著降低。
这种误注释现象在遗传性疾病中同样重要。在Alport综合征中,COL4A3基因的一个同义变异(p.Thr255Thr)实际上影响剪接,导致外显子13跳跃。在癫痫相关的SCN1A基因中,71%的外显子变异最初被错误分类,其中chr2:166043691 A>G变异从错义突变重新注释为内含子变异。
重新注释非编码为编码变异
虽然相对少见,但研究也发现了非编码到编码变异重新注释的案例。例如,STK11基因的一个内含子突变chr19:1221013 G>A能够创建新的剪接位点,导致包含130bp新外显子的转录本表达,从而产生编码突变。随着长读长RNA测序技术的普及,预计会发现更多这类重新注释案例,因为该技术能够检测到更多组织特异性新型转录本。
通过评估表达转录本改进突变注释
研究强调,尽管COSMIC等主流数据库提供了选择不同转录本进行注释的选项,但缺乏对相关组织中表达转录本的验证功能。研究人员推荐使用GTEx转录本浏览器快速验证组织特异性异构体表达,或直接获取野生型与突变型样本的RNA测序数据进行比对分析。
长读长RNA测序是进行异构体表达分析的最佳技术,能够准确量化已知转录本并进行新转录本发现。短读长RNA测序数据虽然在某些方面存在局限,但在大多数情况下仍能提供准确的突变注释。研究人员建议结合使用多种生物信息学工具(IsoQuant、Salmon、VEP等)并进行人工验证,以确保注释准确性。
编码/非编码突变注释的剩余挑战
即使在评估表达转录本的情况下,突变注释仍面临挑战。STK19基因的突变案例很好地说明了这一复杂性:chr6:31972346 C>T变异在某些研究中被认为是功能获得性错义突变,而在其他研究中则被证明相对于主要表达的较短异构体是非编码的。长读长测序数据证实了多种STK19异构体的共存表达,使得该变异的准确注释变得复杂,可能具有混合的编码/非编码注释。
此外,不同自动化变异注释工具(SnpEff、VEP、ANNOVAR等)之间存在显著差异,特别是在功能丧失型变异方面。这种不一致性凸显了标准化注释流程的必要性。
利用准确突变注释评估突变影响
正确的突变注释直接关系到后续功能研究策略的选择。对于真正的错义或同义突变,cDNA过表达可能是合适的实验方法;而对于启动子突变,荧光素酶报告基因检测更为适宜;影响剪接的突变则需要使用包含内含子和外显子序列的微型基因报告系统。
在突变性质不明确或存在双重注释的情况下,研究人员推荐使用CRISPR-Cas9基因编辑技术构建等基因模型。虽然这种方法通量较低,但能够避免过表达和报告基因检测中可能出现的假象,在天然调控机制完整的情况下提供最可靠的功能数据。新兴的碱基编辑和prime编辑技术进一步提高了基因编辑的精确性和效率,为突变功能研究提供了更强大的工具。
研究结论强调,整合DNA和RNA测序数据是避免突变注释错误的关键第一步。虽然长读长RNA测序是进行异构体表达分析的最佳选择,但广泛可用的短读长RNA测序数据在大多数情况下也能提供准确的突变注释。然而,对于某些复杂案例,仍然需要在精确基因编辑的等基因模型中进行功能验证,才能完全理解突变的影响。
这项研究的重要意义在于为基因组学领域建立了一个新的变异注释标准,将组织特异性表达信息纳入注释流程,显著提高了变异功能解读的准确性。随着人工智能工具在临床遗传学中的应用日益广泛,这种基于实证的准确注释方法将为训练可靠的预测模型提供高质量数据,最终推动精准医疗向更高水平发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号