PNC-LDPC 编码介导的中等长度 DNA:迈向单分子无组装快速读取的新范式

《Nature Communications》:Approaching single-molecule assembly-free readout from medium-length encoded DNA

【字体: 时间:2025年11月19日 来源:Nature Communications 15.7

编辑推荐:

  纳米孔测序虽快,却深陷插入/缺失(indel)高误码与拼装高算力泥潭。作者以 PNC-LDPC 码武装 6–43 kb 中等长度质粒,仅 1.24–3.15× 覆盖度即可无错恢复数据,实现“写一次读多次”冷数据备份的快速、低成本、单分子级读取。

  
当人类正被“泽字节”信息洪流淹没,传统磁、光介质在能耗与寿命面前节节败退时,DNA 以 1 g 存 215 PB 的超高密度、千年稳定、低能耗优势成为冷数据备份的“终极梦想”。然而,梦想照进现实却遭遇两大“拦路虎”:一是传统合成测序(SBS)读取慢、耗时长,无法满足“随取随用”;二是新兴纳米孔测序虽把读取时间缩到分钟级,却被 1–9% 的插入/缺失(indel)错误率拖垮,往往需要 ≥30× 覆盖度并辅以复杂拼装运算才能无错还原数据,成本与算力双双爆表。于是,一个“又快又准还省”的读取方案成为 DNA 存储领域最迫切的“圣杯”。
为破局,天津大学 Weigang Chen、Yingjin Yuan 团队把目光从传统“短寡核苷酸池”或“超大人工染色体”转向中等长度 DNA:6–43 kb 的环状质粒。它们既能绕开短片段的高索引开销,又能规避大片段的繁琐 Gibson 拼装,却长期缺乏匹配的纠错与定位技术。作者提出全新 PNC-LDPC 编码策略:将非二进制低密度奇偶校验码(LDPC)与伪噪声序列(PN)逐位绑定,生成带“导航水印”的 DNA 序列;再通过优化转座酶一步酶切建库,把环状质粒变成接近全长的线性片段供纳米孔读取。PN 序列如同“分子 GPS”,可在任意起点、任意长度的 noisy read 中秒级定位并精准标注 indel,随后把插入碱基直接删除、缺失位点标记为擦除(erasure),交由高增益 LDPC 解码器一次性清零错误。实验表明,在 R10.4.1 纳米孔、1.83% 原始错误率场景下,仅 1.24–3.15× 覆盖度即可 100% 无错恢复 5.9 kB 中文古诗及 3.7 kB 莎士比亚十四行诗,平均恢复时间 <6 s;即便极端 43% 误码,通过 496× 覆盖共识也能可靠解码。该成果 2025-11-17 在线发表于《Nature Communications》,为 DNA 存储迈向“单分子、分钟级、低成本”实用化按下加速键。
关键技术方法:
  1. PNC-LDPC 编码:非二进制 LDPC 与 PN 序列逐位交织,生成 22.7–64.5 kb 编码片段;
  2. 转座酶单次酶切建库:调剂量与时间,提高全长读长比例至 59%;
  3. 纳米孔 R10.4.1 测序:实时获取 ≥30 kb 长读长;
  4. PN 滑动对齐+indel 转擦除:Minimap2 定位,插入删除直接修正;
  5. 共识-LDPC 迭代解码:多数表决生成共识后,非二进制 LDPC 清零残余错误。
研究结果:
中等长度 DNA 片段平衡可靠与快速读取
针对短寡核苷酸池读取慢、大片段需拼装的问题,作者构建 28 个 6–8 kb 与 5 个 33–43 kb 质粒,分别存储 5.9 kB 中文诗与 3.7 kB 英文诗。流程分四步:PNC-LDPC 编码→酵母一步组装成环状质粒→转座酶线性化→纳米孔测序→PN 对齐+LDPC 解码。实验显示,当读长与码字长度高度匹配时,平均 1.24× 覆盖即可无错恢复;匹配度稍差的质粒也仅需 3.15×,远低于文献报道的 9–200×。
PNC-LDPC 方案实现强纠错与快速对齐
PN 序列与 LDPC 码字逐位绑定,使任意起点读长都能通过 PN 自相关快速定位,indels 直接转擦除,避免拼装。与“稀疏叠加”旧方案相比,免去了 PN 被数据淹没的风险及复杂组装。采用码率 1/3、1/2、0.93 三种 LDPC,均能在 2% 原始误码下实现零错误解码;交织版 pLP2-e 在 96.3% 实验中 ≤3 条读长即可恢复。
单次转座酶切获得全长读长
传统 ONT Rapid Kit 易多切导致读长缩短。作者提高模板量、缩短反应时间,使 59% 碱基集中在 30–35 kb 主峰,匹配质粒全长。对比传统法,高度匹配读长比例提升 4.5 倍,仅 3 条高质量读即可无错恢复,pLP2 平均覆盖降至 1.51×。
PN 对齐+纠错实现无拼装可靠读取
读长经 PN 滑动对齐后,indels 被标注并修正,残余替代/擦除由非二进制 LDPC 清零。32 个质粒、662 次独立实验显示,原始 ~2% 误码经共识后降至 LDPC 可纠范围;实时读取 3 个文件总计 364 s 完成无错还原。模拟表明,即便 43% 误码,496× 共识仍可零错误解码,证明方案可扩展至更大容量。
研究结论与讨论:
文章首次将“中等长度 DNA+PNC-LDPC”推到单分子级读取前沿,把覆盖度门槛降到 1× 量级,彻底摆脱高覆盖与复杂拼装的双重枷锁。PN 序列像“分子北斗”一样实现任意断点自定位,indels 转擦除策略让高误码纳米孔数据瞬间“洗白”,LDPC 则兜底残余错误,三者协同实现“写一次、读多次”冷数据备份的快速、低成本、高可靠愿景。随着酶法长片段合成成本持续下探,该方案有望率先在档案馆、医疗冷数据等场景落地,并为未来 DNA 存储标准制定提供关键编码-建库-解码一体化范式。作者亦指出,更高容量将带来算力挑战,但借助 minimap2 多线程加速,37.8 KB 数据 40 线程平均 3.08 s 即可完成恢复,为“泽字节时代”的绿色信息存储铺就了可扩展的快车道。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号