编辑推荐:
本文提出了一种创新的双用途基因数据安全共享方法,通过读段混合(read pooling)和基因组区域剔除技术,在保持种群水平分析能力的同时,有效防止病原体完整基因组的重建。该方法利用FASTQ数据混合和参考基因组不完全比对策略,在SARS-CoV-2、猴痘病毒(MPXV)和炭疽杆菌(Bacillus anthracis)等病原体数据上验证了基因组信息的有效模糊化,为高风险病原体基因数据的安全共享提供了新的技术解决方案。
背景
随着生物技术的进步,生物技术被滥用的风险日益增加。现代合成生物学方法能够促进新型生物体的创造,DNA可以精确合成并通过CRISPR/CAS9技术插入生物体。仅凭基因组序列完全重建病毒或细菌的能力已被证实,这为病原体基因组数据的生成者带来了困境。
一方面,需要共享病原体遗传信息以了解其起源和进化,并在设计传染病对策时有益利用遗传信息。另一方面,由于这些数据可能被滥用,可能会导致对共享已收集遗传数据的犹豫,甚至可能拒绝发布以避免共享数据的压力。对于最危险病原体的遗传数据,在某些国家可能禁止共享数据,特别是在国际共享时。
COVID大流行测试了全球危机期间数据共享的标准和法规。在疫情初期,病原体序列数据的共享对于追踪其传播、预测病毒如何进化以及开发mRNA疫苗等对策至关重要。如果没有及时共享准确的序列数据,世界可能无法迅速应对这种新型疾病。
科学数据的开放共享是重大科学进步所依赖的理想标准,但这种数据共享方法可能与某些病原体基因组数据的数据共享限制相冲突。目前,共享危险病原体关键数据的标准方法涉及具有不同级别访问控制的数据共享平台。虽然GISAID和PHA4GE数据共享协议等框架通过保护提交者权利来促进管理式共享,而INSDC优先考虑"自由和无限制的访问",但这些平台都没有从技术上防止具有合法访问权限的行为者重建危险病原体。
材料与方法
研究人员开发了新的遗传数据格式化方法,防止任何访问数据的人能够重建完整基因组。第一种方法涉及:将来自样本的DNA测序读段与不完整的参考基因组进行比对,必须移除该基因组的相当大部分(例如,移除完整基因)。由此产生的比对文件可以进一步处理为变异调用文件(VCF)或直接共享。比对文件或VCF将不足以重新创建样本的完整基因组,因为被移除的敏感序列区域不包含在比对或组装文件中。
第二种更复杂的方法可以在应用第一种方法之前进行:将来自同一生物体DNA样本的多个FASTQ数据集的DNA序列读段混合,并剥离每个读段的元数据。然后,池中读段的顺序被随机化,使得来自单个样本的读段分布在整个池中。生成的文件保持FASTQ格式,并包含原始样本数据的所有读段,但配对末端读段信息丢失。
为了检验读段混合方法,研究人员将其应用于SARS-CoV-2、猴痘病毒(MPXV)和炭疽杆菌的FASTQ数据。对于SARS-CoV-2,生成了7个独立的FASTQ格式数据集,每个数据集包含2、5、10、50、100和500个测序数据的独特混合物。对于炭疽杆菌,生成了4个不同的数据集,每个数据集包含2、5、10和50个分离株,随机从NCBI序列读段档案(SRA)中选择。
结果
通过检查越来越大池的测序数据集,研究人员测试了混合方法使用既定生物信息学方法模糊基因组数据的能力。使用EDGE COVID-19工作流程为SARS-CoV-2样本提供基于多数规则的变异调用。无论SARS-CoV-2读段是混合还是单独分析数据集,都发现了相同的单核苷酸多态性变异(SNV)和插入/缺失(INDEL)。
Freyja能够估计混合数据中存在的变异的大致比例,但在预测混合数据中存在的谱系时并不总是正确。Freyja预测混合数据中谱系的能力随着更多数据集的混合而准确性降低。值得注意的是,Freyja倾向于高估混合数据中的谱系数量,并且这种高估随着更多数据集的混合而增加。
对于炭疽杆菌,当67个单独测序数据集单独映射到参考基因组时,实现了平均基因组覆盖率从97.04%到99.06%不等。变异调用分析显示SNV计数范围从8到2,653。为了评估混合的炭疽杆菌数据,研究人员比较了池中的SNV位置与单独测序数据集中的SNV位置。
猴痘病毒分析进一步证明了混合读段如何有效掩盖样本特异性基因组信号。MPXV的197kb长双链DNA基因组提供了一个中间测试案例,使得能够评估混合对于相对于RNA病毒具有中等基因组复杂性的大病毒基因组的行为。
讨论
研究软件生成的数据格式类似于现实场景,其中来自单个样本的读段数据不清晰。样本可能相互污染,疾病的多种变异可能共同感染患者,或者新的重组谱系可能出现。Freyja程序旨在为SARS-CoV-2解开这些潜在场景,使其成为测试方法限制的理想方法。
当构建基因组时,许多因素可能影响变异调用。研究人员预期这里检查的细菌和病毒基因组之间的差异将影响混合方法模糊基因组的程度。细菌基因组比病毒基因组更大、结构更复杂,并包含更多变异,因此重建它们的基因组可能更加困难。
与炭疽杆菌类似,混合MPXV数据集带来的模糊化随着数据集数量的增加而增加。MPXV基因组大小为200kb,代表了小SARS-CoV-2基因组(约50kb)和大、相对稳定的炭疽杆菌基因组(约5Mb)之间的中间体。该方法模糊MPXV基因组的能力证明了该方法在中等基因组大小和突变率上的有效性,即使只混合了2个数据集。
总体而言,这些结果表明,通过混合来自同一物种的读段,样本的基因组变得模糊。然而,并非所有信息都被隐藏。大部分基因组信息仍然存在:被测序的物种、池中存在的常见变异以及关于基因序列的一般信息。
结论
这里分析的基因组对生物安全具有重要意义,该方法可以广泛应用于其他病原体的基因组数据。该方法也可以应用于更大的基因组,如人类基因组,以模糊敏感数据以保护隐私和安全。
通过以防止滥用的方式共享原始数据,可以进行分析以确保数据的准确解释。遗传数据的使用,在病原体监测和其他地方,对于生物安全、生物经济的发展和医学的进步可能至关重要。这种数据共享可能因滥用威胁而受到抑制。原始数据的可用性有助于确保任何基因组分析的准确性、真实性和解释。即使不共享原始数据,保护原始数据本身内的信息为静态数据提供了安全性,并确保从数据中提取的任何信息保持同等安全。