DBSP:一种用于从DNA测序数据中重建DNA存储信息的端到端处理流程
《IEEE Transactions on Molecular, Biological, and Multi-Scale Communications》:DBSP: An End-to-end Pipeline for DNA Storage Data Reconstruction from DNA Sequencing
【字体:
大
中
小
】
时间:2025年11月25日
来源:IEEE Transactions on Molecular, Biological, and Multi-Scale Communications 2.3
编辑推荐:
DNA存储技术因超高密度、稳定性和低能耗成为新兴解决方案,但测序错误导致数据恢复困难。本研究提出无冗余的多样化束搜索路径(DBSP)方法,通过构建最大节点子图进行序列聚类,利用多样化束搜索优化候选路径集,最终在非冗余布吕恩图中整合共识序列,有效解决路径纠缠问题。实验表明DBSP较传统序列比对(MSA)的Levenshtein距离更小,Jaccard相似度更接近1,在68%以上序列恢复率下实现近100%恢复率,且无需额外冗余,显著提升DNA存储数据重建效率与稳定性。
摘要:
随着数据量的呈指数级增长,传统存储介质在密度、寿命和能耗方面面临着根本性的限制。基于DNA的存储技术近年来已成为最有前景的存储解决方案,因为它具有超高的物理密度、高稳定性和低能耗。DNA测序不仅是基因组学的核心过程,也是读取DNA存储数据的关键步骤。然而,测序错误不可避免,现有的错误校正代码可以部分解决这个问题,但会引入冗余。在这项工作中,我们提出了一种多样化的束搜索路径(DBSP)来处理DNA测序数据,旨在提高DNA存储中的核苷酸利用率并确保数据完整性。DBSP是一种从测序数据重建DNA存储数据的流程,不会引入额外的冗余。该方案通过构建最大节点子图根据序列之间的相似性对测序数据进行聚类,利用多样化的束搜索策略找到候选路径集的最优解,并最终将共识序列引入非冗余的de Bruijn图中,以解决DNA序列组装过程中的路径纠缠问题。实验结果表明,DBSP的性能优于多重序列比对(MSA)。通过多样化的束搜索进行多重序列比对得到的共识序列具有更小的Levenshtein距离(LD)和更接近1的Jaccard相似度。在高错误率下,它仍能保持与编码DNA较高的相似性且没有冗余。非冗余的de Bruijn图实现了超过68%的序列重建率和接近100%的序列恢复率,并且稳定性良好。总之,该方案可以作为错误校正代码的有效预处理或后处理方法,实现DNA存储数据的高速端到端重建,提高序列重建和恢复率,从而使DNA...
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号