
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向DNA存储的GC平衡极化码设计:纠正插入、删除与替换错误的新方案
【字体: 大 中 小 】 时间:2025年06月20日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
本研究针对DNA存储中因合成与测序过程产生的插入(insertion)、删除(deletion)和替换(substitution, IDS)错误,创新性地提出了一种GC平衡的极化码(DNA-BP Code)。通过将DNA存储通道特性融入极化码设计,并引入漂移向量模型刻画序列偏差,该方案在O(NlogN)复杂度下实现了高效纠错。实验表明,该编码方案能显著降低误码率(BER)和块错误率(BLER),同时满足GC含量平衡的生物学约束,为高可靠性DNA数据存储提供了新思路。
随着全球数据存储需求爆发式增长,脱氧核糖核酸(DNA)因其超高密度(理论上1克DNA可存储215PB数据)和千年级稳定性,成为最具潜力的新型存储介质。然而,DNA合成与测序过程中不可避免的插入(insertion)、删除(deletion)和替换(substitution, IDS)错误,以及GC碱基含量失衡导致的分子稳定性问题,严重制约了其实际应用。传统纠错码如里德-所罗门码(Reed-Solomon)虽能处理替换错误,却难以应对IDS混合错误场景,且缺乏对GC平衡的生物学约束考虑。
南开大学数学研究所的张睿与天津大学应用数学中心的吴华明团队在《Briefings in Bioinformatics》发表研究,提出名为DNA-BP Code的GC平衡极化码方案。该研究通过三个关键创新突破技术瓶颈:首先建立漂移向量模型刻画IDS错误导致的序列偏移;其次改进传统极化码的连续消除(SC)解码算法,使其适应具有记忆特性的DNA存储通道;最后通过牺牲logN量级信息位实现O(N)级GC失衡控制。理论证明该方案能以O(NlogN)复杂度逼近IDS通道的对称容量,仿真显示在N=214码长时,相较现有系统编码方案可降低60%以上误码率。
关键技术方法包括:1) 基于马尔可夫链的漂移向量建模,量化IDS错误导致的序列偏移;2) 改进的极化码编码架构,通过平衡索引集B实现GC含量控制;3) 适配DNA存储通道的SCL(连续消除列表)解码算法,整合CRC校验提升可靠性;4) 对称容量估计算法确定冻结位分布。
主要研究结果
GC平衡特性验证:通过1000次随机实验证明,当码长N≥210时,GC含量收敛至50±2%的理想区间(图8)。这种平衡性使PCR扩增效率提升30-40%,显著优于传统非平衡编码方案。
纠错性能分析:在pi=pd=10-2、ps=10-2的严苛条件下,N=214码长可使BER降至10-5量级(图5)。与Xue等提出的系统编码相比(图9),在混合错误场景下仍保持71.8%的性能优势。
计算复杂度控制:尽管引入漂移向量使概率计算复杂度增加O(D3),但通过递归式(12)-(14)的优化设计,最终解码复杂度仍维持在O(NlogN),FPGA平台实测吞吐达1Gb/小时。
理论突破:首次证明IDS通道的极化现象(图4),当码率R<>e≤2-Nβ(β<1/2)指数衰减,为DNA存储编码奠定理论基础。
该研究开创性地将通信领域的极化码理论与生物存储需求相结合,其GC平衡设计直接解决了DNA分子热力学稳定性问题,而高效的IDS纠错能力则突破了合成生物学中的"读写瓶颈"。未来通过与酶促DNA合成技术的结合,该方案有望推动千碱基级大容量DNA存储的实用化进程。研究团队指出,下一步将探索同聚物(homopolymer)约束的编码扩展,并深化对IDS通道对称容量的理论研究,为生物分子信息存储提供更强大的编码工具。
生物通微信公众号
知名企业招聘