基于纳米孔长读长扩增子测序的可扩展HPV16全基因组测序方法开发及其在撒哈拉以南非洲人群中的应用

《Scientific Reports》:Scalable long-read nanopore HPV16 amplicon-based whole-genome sequencing

【字体: 时间:2025年10月09日 来源:Scientific Reports 3.9

编辑推荐:

  为解决撒哈拉以南非洲地区HPV16基因组多样性研究不足及测序成本高昂的问题,研究人员开发了一种基于牛津纳米孔技术(ONT)的扩增子全基因组测序(WGS)方法。该研究通过三组引物策略,成功从临床样本中获得了高覆盖度的完整HPV16基因组,并建立了变异检测的“金标准”数据集,验证了Clair3和PEPPER等变异识别工具在HPV16分析中的可靠性。该方法为资源有限地区开展HPV16基因组监测、诊断及流行病学研究提供了经济、便携且高效的解决方案。

  
宫颈癌是全球女性第四大常见癌症,每年导致约34.2万人死亡,其中绝大多数发生在人类发展指数较低的国家,特别是撒哈拉以南非洲地区。人乳头瘤病毒16型(HPV16)是导致宫颈癌的主要元凶,在全球范围内承担了超过50%的病例。然而,HPV16并非铁板一块,其基因组内部存在丰富的遗传多样性,被划分为A、B、C、D四个主要进化谱系,其中某些亚谱系(如A4和D2)与更高的宫颈癌风险密切相关。
尽管HPV16在撒哈拉以南非洲地区占据主导地位,但该地区的HPV16分离株研究却相对匮乏。以往的研究多依赖于靶向测序,仅关注致癌基因E6、主要衣壳蛋白基因L1或非编码长控制区(LCR),而忽略了病毒基因组的其他部分。这种“管中窥豹”的方式,无法全面揭示HPV16的遗传全貌,也难以捕捉病毒整合入宿主基因组等关键生物学事件。此外,传统的短读长测序平台(如Illumina)虽然准确度高,但在资源有限的环境中部署成本高昂,且难以跨越重复区域,导致基因组组装不完整。
为了填补这一知识空白,并开发一种适用于资源有限地区的经济、便携且全面的HPV16基因组分析方案,来自布朗大学等机构的研究团队在《Scientific Reports》上发表了一项研究。他们开发并验证了一种基于牛津纳米孔技术(ONT)的扩增子全基因组测序(WGS)方法,旨在对HPV16进行高分辨率、可扩展的基因组监测。
关键技术与方法
为了开展这项研究,研究人员设计了一套“三合一”的引物策略,用于在测序前富集HPV16 DNA。这套策略包括:1)近全长引物组,用于扩增约7.7 kb的片段,以捕获完整或接近完整的HPV16 DNA;2)瓦片式引物组,产生三个重叠的扩增子(2.1 kb、3.9 kb、2.6 kb),用于富集样本中可能存在的片段化HPV16 DNA;3)连接点引物组,专门设计用于捕获线性化并整合入宿主基因组的HPV16序列。研究样本包括HPV16阳性的CaSki细胞系以及来自肯尼亚西部和卢旺达的12份HPV16阳性临床宫颈脱落细胞样本。所有样本均使用牛津纳米孔MinION或PromethION 2(P2)平台进行测序。在生物信息学分析方面,研究人员利用CaSki细胞系的公开Illumina数据建立了HPV16变异检测的“金标准”数据集,并以此为基础,对Clair3和PEPPER-Margin DeepVariant(PEPPER)这两款长读长变异识别工具进行了性能评估。此外,研究还进行了从头组装、系统发育分析以及基于变异数据的无监督聚类分析,以全面评估该方法的稳健性。
研究结果
WGS引物设计以捕获HPV16
研究人员设计了三组引物,成功实现了对HPV16基因组的全面覆盖。该方法灵敏度极高,即使在每反应仅含5个HPV16拷贝的极低浓度下也能成功扩增和测序。通过对CaSki细胞系DNA的测试,该方法获得了极深的测序覆盖度(中位数>1000倍),为后续的高精度变异识别奠定了坚实基础。
对PEPPER和Clair3进行HPV16 WGS变异识别基准测试
为了评估长读长变异识别的准确性,研究人员建立了一个高置信度的HPV16变异“金标准”数据集,并以此对Clair3和PEPPER进行了性能评估。结果显示,Clair3在总体变异识别上表现优异,达到了100%的精确度、96.9%的召回率和98.4%的F1分数。PEPPER也表现出色,总体F1分数为95.2%。在单核苷酸多态性(SNP)检测方面,两款工具均表现出极高的准确性,F1分数均为98.3%。然而,在插入缺失(Indel)检测方面,两款工具均面临挑战,Clair3虽然保持了100%的精确度,但召回率仅为33.3%;PEPPER的召回率和精确度均为66.7%。这一结果反映了纳米孔测序在均聚物区域存在系统误差的已知局限性。
临床样本的HPV16 WGS概念验证
将该方法应用于12份临床样本后,所有样本均获得了完整的HPV16基因组覆盖,中位读长覆盖度在5899倍至15279倍之间。在其中一个样本(PMTRHP10)中,研究人员观察到一个约540 bp的缺失,该缺失覆盖了E2基因的部分区域。E2基因是病毒癌基因E6和E7的关键负调控因子,其缺失会导致癌基因过表达,从而驱动细胞转化和宫颈癌发生。这一发现证实了该方法能够有效捕获具有生物学意义的基因组结构变异。
临床样本中HPV16基因组的稳健恢复与系统发育分析
通过从头组装和基于参考基因组的变异识别,研究人员成功重建了所有临床样本的完整HPV16基因组。系统发育分析清晰地揭示了四个主要的HPV16谱系:A、B、C和D。在谱系A中,两个样本被分类为A1亚谱系,一个为A2亚谱系;谱系B样本与B4亚谱系一致;谱系C与C1亚谱系一致;谱系D样本则与D3亚谱系一致。基于参考基因组的系统发育分析和无监督聚类(UMAP)结果均与从头组装的结果高度一致,证明了该方法的稳健性和高分辨率。
临床HPV16分离株的突变谱
通过对临床样本的病毒基因组进行分析,研究人员共鉴定出253个变异,其中绝大多数为SNP(96.4%)。在预测功能影响方面,52.8%的变异为同义和非编码SNP,47.2%为错义突变,错义与同义突变比值为0.89。变异在编码区广泛分布,其中E5基因的变异频率最高,其次是L2和E2基因。与此相反,E7基因的变异最少,这与E7作为关键致癌基因需要保持高度保守性的认知相符。
结论与讨论
本研究成功开发并验证了一种基于纳米孔长读长测序技术的、可扩展的HPV16全基因组测序方法。该方法通过“三合一”引物策略,能够有效捕获完整或片段化的HPV16基因组,包括整合入宿主基因组的病毒序列。研究建立了一个高置信度的HPV16变异“金标准”数据集,并证实了Clair3和PEPPER这两款变异识别工具在HPV16 SNP检测方面具有极高的可靠性。
该方法在临床样本中表现优异,能够获得高覆盖度的完整基因组,并成功对样本进行了精确的谱系和亚谱系分类。系统发育分析、基于参考基因组的变异识别以及无监督聚类分析结果的高度一致性,充分证明了该方法的稳健性。此外,该方法还成功捕获了具有生物学意义的基因组结构变异(如E2基因缺失)和广泛的点突变谱,为深入理解HPV16的遗传多样性和致病机制提供了有力工具。
尽管在Indel检测方面仍存在挑战,但该研究为在资源有限地区开展HPV16基因组监测、诊断和流行病学研究提供了一种经济、便携且高效的解决方案。随着纳米孔测序技术的不断进步,该方法有望在宫颈癌的精准防控和消除工作中发挥越来越重要的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号