-
生物通官微
陪你抓住生命科技
跳动的脉搏
《Genome Biology》:The impact of PCR duplication on RNAseq data generated using NovaSeq 6000, NovaSeq X, AVITI, and G4 sequencers
【字体: 大 中 小 】 时间:2025年05月29日 来源:Genome Biology 10.1
编辑推荐:
本研究针对RNA-seq技术中PCR扩增循环数和起始RNA量对数据质量的影响展开系统评估,通过比较Illumina NovaSeq 6000/X、Element AVITI和Singular G4四种测序平台的表现,揭示了低起始量(<125 ng)与高PCR循环数会导致34-96%的PCR重复序列,显著降低基因检测灵敏度。该研究为优化实验设计提供了关键参数指导,对转录组研究的标准化具有重要意义。
在转录组研究中,RNA-seq技术已成为基因表达分析的黄金标准,但实验参数的优化仍是困扰研究者的难题。PCR扩增作为文库构建的关键步骤,其循环次数和起始RNA量的选择直接影响数据质量——过度扩增会导致重复序列增加,而起始量不足则可能丢失低表达基因信息。更复杂的是,随着Element AVITI、Singular G4等新型测序平台的出现,跨平台兼容性问题也亟待解答。
瑞士联邦理工学院苏黎世分校联合哈佛医学院等机构的研究团队在《Genome Biology》发表的重要研究,首次系统评估了起始RNA量(1-1000 ng)和PCR循环数在四种主流测序平台(Illumina NovaSeq 6000/X、Element AVITI、Singular G4)上对数据质量的影响。通过UMI(Unique Molecular Identifiers)标记和生物信息学分析,揭示了参数选择与数据质量的量化关系,为实验设计提供了精准指导。
研究采用NEBNext Ultra II定向RNA文库制备试剂盒构建文库,通过人类肝脏RNA梯度稀释(1-1000 ng)模拟不同起始量条件,设置低/中/高三种PCR循环数(相差2个循环)。利用UMI标记区分真实转录本与PCR重复序列,通过STAR比对和Qualimap质量评估,比较了四种测序平台的原始数据质量、重复序列率、基因检出数等关键指标。
Featured datasets
研究设计涵盖9个RNA输入梯度(1-1000 ng)和阴性对照,采用Illumina UDI接头构建文库后,分别在原生Illumina平台和经转换的AVITI/G4平台测序。这种多平台平行比较策略首次实现了跨系统数据质量的标准化评估。
Raw read quality evaluation
测序质量评分显示所有平台Phred值均>36(AVITI最高达43),但G4的错配率比其他平台高50%。值得注意的是,Illumina平台短读段(<18 bp)污染率达5.6-70.1%(低起始量样本),而经转换的AVITI/G4文库仅含0.009-3.3%的引物二聚体,证明转换步骤能有效净化文库。
Number of artifactual reads
当起始量<125 ng时,PCR重复序列率呈"双因素调控"特征:7 ng样本重复率高达96%,而125 ng时降至8-18%。关键发现是62 ng样本在中等与高循环数条件下,重复率会从34-42%跃升至50-60%,证明PCR循环数的微小差异即可显著影响数据质量。
Number of detected genes
基因检出数与起始量呈正相关(1 ng检出5013个基因 vs 1000 ng检出14536个)。在7 ng样本中,高循环数组比中/低循环数组少检出50%基因,而62 ng时差异缩小至5%。平台间比较显示,>125 ng样本中85%基因能被所有平台一致检出,证实跨平台数据的可比性。
Low input amounts yield distorted counts
对1582个核心基因的分析显示,起始量解释30%的表达变异,而PCR循环数仅贡献7%。特别在<31 ng样本中,高循环数组的Top20高表达基因计数比低循环数组低2-5%,表明过度扩增会压缩动态范围。UMI去重使<125 ng样本的平台间相关性提升,但在<7 ng样本中反而降低,提示极低起始量下技术噪音已超过UMI校正能力。
这项研究建立了RNA-seq实验参数的"安全阈值":当起始量>250 ng时,PCR循环数差异几乎不影响结果;但对<125 ng样本,建议采用最低推荐循环数以最大限度保留基因信息。研究发现四种平台数据质量高度一致,但需注意G4的错配率较高、AVITI/G4转换会增加低起始量样本的重复序列率等技术细节。
该成果对精准医学研究具有重要指导价值:一方面为单细胞转录组、微量样本研究提供了参数优化标准,另一方面解决了跨平台数据整合的可靠性问题。研究者特别强调,对于临床样本等珍贵材料,应优先保证起始量而非依赖过度扩增,这对肿瘤异质性研究、罕见病转录组分析等前沿领域具有方法论意义。