DNA-Storalator：面向DNA数据存储的跨平台计算模拟器开发与应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月06日 来源：BMC Bioinformatics 3.3

编辑推荐：

　　针对DNA数据存储系统中合成、测序等环节的独特错误类型(插入、删除、替换)，以色列理工学院的研究团队开发了DNA-Storalator计算模拟器。该工具通过模拟合成/PCR/测序过程的生物学误差(pd、pi、ps等)，集成聚类(Min-hash/索引)和重建算法(BMA/动态编程)，支持新型合成技术(如enzymatic synthesis)的错误特征分析，为DNA存储系统的算法开发和编码优化提供了标准化测试平台。

在数字化时代爆发式增长的数据存储需求下，传统硅基存储介质正面临物理极限的挑战。DNA分子以其惊人的存储密度(理论上1克DNA可存储215PB数据)和千年级稳定性，成为最具潜力的下一代存储介质。然而这项革命性技术面临的核心瓶颈在于：DNA合成和测序过程中会产生独特的插入(insertion)、删除(deletion)和替换(substitution)错误，其错误率(p_EER)可达6.3%，远高于传统存储介质的误码率。更复杂的是，不同合成技术(如酶法合成enzymatic synthesis)会产生特征迥异的错误模式，而现有实验手段又存在成本高、周期长的局限，严重阻碍了纠错编码和重建算法的开发进程。

针对这一关键技术瓶颈，以色列理工学院(Technion-Israel Institute of Technology)的Eitan Yaakobi团队开发了DNA-Storalator——首个整合全流程模拟的跨平台DNA存储仿真系统。该研究通过建立基于概率矩阵的误差注入模型(Algorithm 1)，实现了对合成、PCR和测序误差的精准模拟；创新性地将聚类(Min-hash/索引算法)与重建(动态编程/trellis BMA)算法模块化集成；并引入SOLQC工具进行误差特征分析。论文发表于《BMC Bioinformatics》，为DNA存储领域提供了首个标准化算法测试框架。

研究团队采用三大核心技术方法：1)基于5×4条件概率矩阵的误差模拟(图3)，支持长删除错误(p_ld)和GC含量依赖的误差调节；2)集成三种聚类算法，包括新型伪聚类算法和两阶段索引聚类；3)开发多层次重建算法，涵盖线性时间BMA算法和基于LCS的动态编程方法。实验数据来自微软公开数据集[33]，包含55,000个簇的纳米孔测序数据。

【误差模拟验证】通过SOLQC分析实测数据(图4)显示，工具模拟的编辑错误率(EER)与设定值偏差<1%(表1)，能准确反映不同碱基(A/C/G/T)的特征性错误模式。特别是对酶法合成特有的串联重复错误(stutter noise)，采用几何分布模型实现了精准模拟。

【聚类算法性能】比较研究表明(图5)，索引聚类在55,000个簇规模下保持>95%真阳性率，而Min-hash算法更适合处理大规模数据集。创新性伪聚类算法通过设定索引容错阈值(edit distance)，为快速算法评估提供了轻量级解决方案。

【重建算法创新】动态编程算法利用LCS构建误差图谱，在300nt长度序列上实现99.2%重建准确率。Trellis BMA算法结合信道误差概率，可同时校正插入、删除和替换错误，较传统BMA算法提升37%的校正效率。

该研究的突破性意义在于建立了DNA存储研究的"数字孪生"范式。通过模块化设计支持：1)新型合成技术(如UV光刻[4]、复合碱基[2])的误差特征分析；2)深度神经网络训练数据生成；3)编码方案冗余量优化。工具开源于GitHub平台，已应用于微软研究院等机构的DNA存储项目。未来通过整合纳米孔原始信号模拟[24]和延迟评估模块，将进一步推动DNA存储向实用化发展。这项研究不仅解决了算法开发缺乏标准化测试平台的迫切需求，更为多学科团队协作提供了关键基础设施，加速了DNA存储技术从实验室走向商业应用的进程。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号