
-
生物通官微
陪你抓住生命科技
跳动的脉搏
DNA数据存储中低质量读段的序列分析与解码技术研究
【字体: 大 中 小 】 时间:2025年06月11日 来源:Bioinformatics 4.4
编辑推荐:
为解决DNA数据存储中因丢弃低质量读段(NPF reads)导致的读取成本高问题,研究人员开展了一项结合错误检测/纠正码(RS/LT codes)与序列聚类算法(CAPMB)的创新研究。通过开发三阶段渐进式分析流程,成功将低质量读段利用率提升56.67%,平均降低6.83%测序成本(最高达19.67%),为高可靠性DNA存储系统提供了新范式。
在数字信息爆炸式增长的时代,传统数据中心面临功耗高、耐久性差的瓶颈。DNA因其超高密度(1克DNA可存储215PB数据)和千年级稳定性,成为最具潜力的新型存储介质。然而,DNA存储的生化过程难以精确控制,合成、PCR扩增和测序环节会产生碱基替换(substitution)、缺失(deletion)和插入(insertion)错误。现有研究通常直接丢弃Illumina测序中未通过纯洁度过滤的低质量读段(NPF reads),导致高达35.98%的测序数据被浪费——这相当于每测序1万条读段就损失3598条潜在有用信息。
针对这一挑战,全南大学智能电子与计算机工程系Jiyeon Park团队在《Bioinformatics》发表创新研究,开发出整合错误检测码与序列分析的协同解码系统。通过实验证实,NPF reads中39.42%的读段含≤5个错误,具有可修复潜力。研究团队设计的三阶段渐进式分析流程,结合独创的基于编辑距离的聚类算法和概率多数投票-错误检测共识机制(CAPMB),首次实现低质量读段的系统性回收利用。
关键技术包括:1) 从Illumina MiSeq原始数据(cif文件)提取NPF reads的定制化碱基识别;2) 针对不同长度读段(145-153nt)的适配编辑距离聚类算法;3) 整合RS码错误检测的CAPMB共识算法。实验使用含18,000条寡核苷酸(152nt)的513.6KB图像数据集,通过300ng合成池和600-cycle MiSeq测序验证。
序列读段特征分析
统计显示,NPF reads的碱基错误率(3.96%)显著高于PF reads(0.16%),但呈现"两极分布"特征:84.89%的替换错误为单碱基错误,而缺失错误中12.12%为连续缺失。这种特性使得通过多序列比对可实现错误补偿。
解码性能验证
在36次随机采样实验中,提出的Prop-ExtraNPF方案平均减少6.83%测序量(最高19.67%)。关键突破在于:Stage 2通过编辑距离聚类(τe
=5)使34.62%的EDOL reads被成功修复;Stage 3采用长度自适应聚类(τadj
=4)进一步回收22.38%的异常长度读段,CAPMB共识准确率达98.24%。
讨论与意义
该研究突破性地证明:1) NPF reads的错误集中分布特性使其可通过统计方法矫正;2) 插入/缺失错误在序列比对中可被有效隔离;3) 内码(RS)与外码(LT)的协同设计能实现"错误检测-序列修复-擦除解码"的级联优化。相比传统方案,新方法仅增加2.3%计算耗时,却显著提升存储系统的经济性。这种"变废为宝"的策略为DNA存储的产业化提供了新思路,其通用性框架可适配多种编码方案,推动存储密度与成本效益的帕累托优化。
研究还揭示:当NPF reads错误数>10时,直接丢弃比尝试修复更经济,这为未来自适应过滤算法设计提供了阈值依据。团队开源的SAD-DNAstorage工具(10.5281/zenodo.15571858)已实现完整分析流程,其模块化设计支持快速适配新兴的DNA编码技术。
生物通微信公众号
知名企业招聘