基于多重隐藏参考的DNA数据存储快速引导读取框架:实现低覆盖度可靠数据恢复

《iMeta》:Fast bootstrap and reliable readout using hidden references for DNA data storage

【字体: 时间:2026年01月13日 来源:iMeta 33.2

编辑推荐:

  本文提出了一种基于多重隐藏参考的快速引导读取框架,用于大片段DNA数据存储。该框架通过相关峰识别高保真度读长(Type-I),利用前向-后向算法(FBA)纠正插入缺失错误,并通过构建支架参考和再生参考逐步识别含indel错误读长(Type-II)及填补低覆盖区读长(Type-III),将de novo读取转化为类重测序流程。实验表明,在Illumina数据(原始错误率~0.2%)下仅需0.6–2.5×覆盖度即可实现无误恢复,在纳米孔数据(原始错误率~5%)下仅需1.6×(码率1/4)或4.3×(码率2/3)覆盖度,显著优于基于组装的方法,为DNA数据存储的实际应用提供了高效解决方案。

  
Abstract
合成DNA因其高存储密度、长耐久性和低维护成本,已成为一种有前景的数据存储介质。与寡核苷酸池存储相比,大片段DNA支持低成本体内复制,适用于大规模数据分发。然而,从海量无序测序读长中读取数据需要基于重叠区域进行比对,并受多种测序错误(尤其是插入缺失错误)的干扰而变得复杂。本研究提出了一种基于多重隐藏参考的快速可靠引导读取框架,通过将水印序列作为隐藏参考,将de novo读取转化为类重测序工作流程,显著降低了读取复杂度。
Multiple-fold references transform de novo readout to resequencing problem
传统方法依赖于对噪声读长进行de novo组装,需要高测序覆盖度和大量计算资源。本研究构建了多重参考序列来支持引导式可靠读取。一方面,多重参考用于筛选具有不同特征的测序读长:嵌入的水印序列作为主要参考(水印参考)快速识别高相关性读长(Type-I读长);未识别的读长与由Type-I读长构建的支架参考进行比对,产生Type-II读长(通常携带内部indel错误);最后,使用解码反馈策略构建第三个参考(再生参考),用于恢复因支架参考中存在缺口而无法比对的残留读长(Type-III读长)。另一方面,基于逐步识别的读长,提出了两种不同的软判决信息生成方法:为Type-I读长生成了比特级概率信息用于软判决解码,实现快速数据读取;同时,采用软判决FBA来有效纠正所有三类读长中的indel错误。
该读取框架通过体内实验和计算机模拟进行了评估。四个约40 kb的DNA片段,以1/4、1/2、2/3和5/6的码率编码,进行了体内测试。使用原始错误率约为0.2%的150-nt Illumina读长,在0.6–2.5倍覆盖度下实现了无误恢复。模拟结果表明,在原始错误率为0.6%时,可在0.8–3.2倍覆盖度下实现无误恢复。使用原始错误率约为5%的纳米孔读长,在码率为1/4和2/3时,分别仅需1.6倍或4.3倍覆盖度即可实现无误恢复。通过利用冗余读长之间的共识,该框架即使在较高的原始错误率下也能保持低误码率(BER)。
Correlation to hidden watermark reference supports rapid read positioning
对于带有隐藏水印的大片段DNA,噪声读长可以直接与水印序列进行比对。该方法利用叠加的水印序列作为隐藏参考,与噪声读长执行滑动相关,根据相关峰值快速确定读长位置,避免了复杂的de novo组装。该方法能有效过滤出来自质粒骨架、宿主基因组或严重测序错误的干扰读长。通过应用阈值,可以排除这些显示出低得多的相关峰值的干扰读长。最优阈值通过最小化解码前的共识BER来确定。评估表明,在存在质粒骨架干扰(约20%的读长)和宿主基因组干扰(约99.5%的读长)的情况下,基于阈值的分类准确率分别达到约99%和约99.5%。此外,读长长度、编码稀疏度和测序错误率对相关准确性有影响:更长的读长具有更高的相关准确性;较低的稀疏比将原始信息分散到更长的水印中,减少了干扰,实现了更精确的读长定位。
Bit-wise consensus and probability generation for soft-decision recovery
在Type-I读长定位后,通过比特级多数表决获得共识比特序列。然后进行水印去除和去稀疏化,以重建概率共识。接着计算对数似然比(LLR)为LDPC解码生成软信息。跨四个码率的实验表明,在0.6–2.5倍覆盖度下成功恢复了原始数据。此外,汇集片段实验经验性地验证了基于相关的读取方案对抗交叉片段干扰的鲁棒性。与基于组装的方法(如Velvet)相比,该方法在相同数据集和计算环境下,以更低的测序覆盖度实现了无误数据恢复,展示了在降低测序成本方面的实际优势。
Read-by-read forward–backward algorithm corrects insertions and deletions
虽然比特级共识支持快速数据读取,但它无法纠正indel错误。为了解决这个问题,提出了一种增强策略,将逐读长的FBA与支架引导比对相结合,以有效挽救含有indel错误的读长。首先,开发了逐读长FBA来纠正indel错误,减少错误传播。具体而言,在隐马尔可夫模型(HMM)上采用软判决FBA来学习水印退化模式并推断真实的编码符号。然后,为了恢复更多可用的读长,通过比特级共识使用Type-I读长构建支架参考。由于支架参考包含擦除和替换错误,直接比对噪声读长具有挑战性。因此,采用了部分长度比对策略,将读长片段独立地与支架参考进行比对。通过这种方式成功比对的读长被分类为Type-II读长,这些读长通常在中间区域含有indel错误。
评估表明,与直接的比特级概率生成(BW)相比,使用FBA的概率生成减少了解码前的替换错误。在原始错误率约为0.6%时,部分比对多识别了24.79%的读长。结合Type-II读长进一步降低了解码前的替换和擦除率,从而在错误率为0.6%时,在0.8–3.5倍覆盖度下实现了无误恢复。
Iterative alignment to regenerative reference fills in low-coverage gap
由Type-I读长构建的支架参考通常存在缺口,这些缺口对应于低覆盖区域。为了解决这个问题,将解码结果反馈以生成再生参考,这有助于识别用于填补码字缺口的读长。LDPC码在因子图上的迭代解码允许概率信息在节点之间传递,从而消除码字内的擦除。解码后的码字被重建成长DNA片段,在稀疏化和水印叠加后仅保留替换错误。然后填补支架参考中的缺口,从而能够识别来自低覆盖区域的读长。
模拟结果验证了在引导方式下逐步恢复Type-I、Type-II和Type-III读长可显著提高读长利用率。在原始错误率为0.6%时,在0.8–3.2倍覆盖度下实现了无误恢复,在错误率为1.2%时仅略微增加到0.8–3.7倍,证明了引导读取的鲁棒性。在真实测序数据上的进一步验证表明,对于纳米孔读长(可变长度且错误率较高),直接与水印进行相关是不切实际的。因此,将长读长分割成短的均匀长度片段(实践中为150 nt),允许约20%的读长被成功识别——主要是那些在读长末端附近有indel错误的读长。这些识别的读长随后以引导方式启动解码过程。
DISCUSSION
本研究提出了一种基于多重隐藏参考的快速可靠引导读取框架,用于DNA数据存储。该方法整合了多阶段比对和软判决错误纠正策略,将de novo读取转化为类重测序工作流程。大片段DNA存储可以利用高效的DNA复制和大规模制造。结合所提出的高效读取策略,它代表了一种极具前景的DNA数据存储模式。该方案可以适应各种测序技术。对于indel错误率低的设备,该方法选择相关性和比特级共识来实现快速数据恢复。对于indel错误较多的设备(如纳米孔和Ion Torrent测序仪),该方法使用三个参考和FBA全面搜索所有读长,以实现可靠的数据恢复。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号