
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Pantheon-DNA:面向DNA数据存储的集成自适应NGS预处理算法的多功能编解码系统
【字体: 大 中 小 】 时间:2025年09月11日 来源:Computational and Structural Biotechnology Journal 4.1
编辑推荐:
本研究针对DNA数据存储中存在的可扩展性挑战和大数据集管理难题,开发了Pantheon-DNA端到端处理管道。研究人员通过引入数据排列方案和随机化编码策略,有效避免了重复序列模式导致的分子嵌合体形成和聚类算法障碍,采用分块数据架构增强并行处理与检索能力。实验表明,该系统在10×覆盖度下实现了≥99.996%的数据恢复率,并通过实际合成测序实验验证了其鲁棒性,为大规模DNA数据存储提供了高效可靠的解决方案。
随着数字信息爆炸式增长,传统存储介质如磁带和硬盘在寿命、物理空间和能耗方面面临严峻挑战。脱氧核糖核酸(DNA)因其固有的稳定性、高密度存储能力和可保存千年的特性,被视为革命性的数据存储解决方案。然而,将数字数据存储在DNA中涉及复杂的计算技术和分子生物学过程,包括数据编码、DNA合成、测序和解码等多个环节。当前技术瓶颈主要在于合成与测序的高成本和有限通量,以及短DNA序列(约200个核苷酸)的限制,这要求将长数据分割成片段并进行系统索引。
为了应对这些挑战,来自巴西圣保罗技术研究院人工智能与分析系的研究团队在《Computational and Structural Biotechnology Journal》上发表了题为"Pantheon-DNA: Versatile Encoding-Decoding System with Integrated Adaptive NGS Preprocessing Algorithms for DNA Data Storage"的研究论文,介绍了一种端到端的DNA数据存储处理管道。
研究人员采用了几项关键技术方法:首先开发了基于模块化架构的编解码系统(Apollo编码器和Artemis解码器);其次设计了集成自适应NGS预处理流水线,包含Chiron(数据分块解复用)、Hermes(地址标签识别)和Hephaestus(聚类分析)三个核心模块;使用Reed-Solomon内外码纠错机制;通过实际DNA合成和Illumina MiSeq测序实验验证系统性能;采用仿真模拟评估不同错误率和覆盖度下的系统表现。
2. Proposed Method
研究团队设计了Pantheon-DNA的整体工作流程,该系统包含五个核心模块:Apollo负责编码,Chiron处理原始测序读数,Hermes进行地址标签识别,Hephaestus执行聚类分析,Artemis完成最终解码。编码过程中采用了两项随机化方法来打破数字数据中的模式,防止这些模式在DNA序列中持续存在。数据被组织成块状结构,每个块通过独特的侧翼标签进行标识,这种设计显著提高了并行处理能力。
2.1. Encoding
Apollo模块采用简单的位到碱基编码方案,每两位比特映射为一个核苷酸(00→A,01→C,10→G,11→T)。研究团队没有使用约束编码来避免同聚物和GC含量问题,而是通过随机化方法统计性地减少极端问题情况的发生。数据被分割成块,每块包含大约相同数量的比特,并应用Reed-Solomon纠错码生成冗余比特串。每个比特串通过唯一索引进行随机化,然后映射为有效载荷序列。
2.2. Preprocessing NGS data
预处理管道包含三个模块:Chiron负责通过半全局比对解复用测序读数;Hermes分两个阶段识别地址标签并进行验证;Hephaestus使用基于丰度的贪婪聚类算法处理剩余读数。这种多层处理方法允许系统根据错误情况动态调整处理策略,早期奇偶校验和地址填充避免了对近乎完美读数的进一步计算,将对齐和聚类保留给需要更重处理的少数情况。
2.3. Decoding
Artemis模块对预处理后的序列进行解码,包括验证序列长度、应用Reed-Solomon错误检测和校正、解码地址标签以及将DNA序列映射回比特串。解码后的比特串按地址位置排序,缺失段通过外码进行验证和填充。
3. Results
3.1. Scenario 1: comparing with literature methods
研究人员将Pantheon-DNA与DNA Fountain和HEDGES方法进行比较。在低错误率(LER)场景下,所有方法都能实现100%数据恢复;但在高错误率(HER)场景下,Pantheon-DNA实现了99.996%的恢复率,而DNA Fountain仅恢复不到4%的数据。处理时间方面,Pantheon-DNA在解码阶段显著快于其他方法,在HER情况下仅需7分钟,而HEDGES需要超过5小时。
3.2. Scenario 2: Pantheon-DNA's modules performances
通过分解各模块性能,研究发现预处理在数据检索中起到关键作用,负责超过50%的序列检索。内码在HER场景中尤为重要,而分块策略使处理时间减少了29倍。Hermes在速度上比Hephaestus快60倍以上,但会丢弃更多读数,这可能导致在某些情况下的解码失败。
3.3. Simulation scenario 3: encoding large file
在90MB数据的规模测试中,系统成功实现了完整数据恢复,编码时间13分26秒,预处理时间12小时3分34秒,解码时间14分57秒。预处理时间增加主要源于Chiron中的多路复用操作。
3.4. Real-Data Experiment
在实际实验中将1.59MB数据(包含三个PDF文件)编码为67,854条DNA序列,通过Illumina MiSeq平台测序,平均覆盖度为68.89。Artemis成功恢复了所有缺失序列,验证了系统的实际应用能力。实验显示,分块处理使聚类时间从9小时11分钟减少到1分钟,证明了分块策略对可扩展性的关键作用。
4. Conclusion
该研究开发的Pantheon-DNA系统为DNA数据存储提供了强大的编解码框架和自适应算法。其独特的块数据架构促进了NGS数据处理的并行化和选择性访问,通过内码处理替换错误、使用序列比对和共识方法处理插入和缺失,以及外码处理擦除,实现了高保真存储和检索。系统的灵活性使其能够根据错误率切换算法,仅在需要时使用多序列比对(MSA)。
研究的重要意义在于为解决DNA数据存储的可扩展性挑战提供了全面解决方案。通过实际数据实验验证了系统的鲁棒性和可靠性,成功编码和解码了1.59MB的多文件数据。未来研究方向包括进一步完善错误纠正码,特别是整合能够恢复插入和缺失的内码,以及改进Hermes模块的地址识别灵敏度,从而减少需要Hephaestus模块处理的读数量。
这项研究不仅推动了DNA数据存储技术的发展,也为未来大规模生物存储系统的设计提供了重要参考,对解决数字时代数据存储挑战具有重要意义。
生物通微信公众号
知名企业招聘