
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于可逆神经网络的DNA图像自校正存储编码方法(INNSE)突破存储密度与容错瓶颈
【字体: 大 中 小 】 时间:2025年06月09日 来源:Computational and Structural Biotechnology Journal 4.5
编辑推荐:
为解决DNA存储中图像编码密度低、时间复杂度高及纠错性能差等问题,Yanfen Zheng团队开发了基于可逆神经网络的自校正编码方法INNSE。该研究通过可逆网络降采样、定制密码本生成器和碱基层面自校正技术,将编码密度提升3倍,时间复杂度降低95.26%,在2%错误率下PSNR和SSIM分别提高80.88%和63.82%,为高容错DNA图像存储提供了创新解决方案。
随着物联网和智能医疗的快速发展,海量图像和视频数据对传统硅基存储提出严峻挑战。DNA存储凭借超高密度(1克DNA可存储215PB数据)和千年级稳定性成为理想替代方案,但在处理图像数据时面临三重困境:现有算法难以兼顾高相关性和多变性的图像特征;编码密度受限于生物约束条件(如GC含量需严格控制在50%);主流纠错方法如Reed-Solomon(RS)码对插入/删除错误的校正效率低下。更棘手的是,第三代测序技术即便经过优化仍存在约3%的错误率,而传统JPEG-DNA等压缩方法在碱基突变时会出现严重失真。
针对这些瓶颈,中国研究团队在《Computational and Structural Biotechnology Journal》发表创新成果,提出基于可逆神经网络的DNA图像自校正编码方法INNSE。该研究通过三阶段技术路线实现突破:首先采用Haar变换和InvBlock模块构建可逆神经网络,通过前向过程将图像分解为低频信息(保留主体特征)和高频信息(存储细节),利用加性仿射变换(公式1)和增强仿射变换(公式2)优化处理;随后设计6nt长度的DNA密码本生成器,通过汉明距离≥4的约束确保序列唯一性;最终开发基于反向推导的自校正算法,通过滑动窗口比对和编辑距离计算(公式6-7)实现无需冗余信息的碱基级纠错。实验选用DIV2K和Vimeo-90K数据集训练,在Set5、Urban100等标准测试集验证性能。
编码性能方面,INNSE在严格满足GC含量50%、同聚物≤2、避免GGC/GAATTC基序等约束条件下,实现5.35 bits/nt的净信息密度,较Yin-Yang算法提升3倍。其DNA序列自由能>-30 kJ/mol的比例达91.64%,显著优于DNA-QLC的34.2%(表1)。时间效率上,处理4598KB图像仅需4.52秒,较DNA-QLC和Yin-Yang分别提升96.62%和95.26%效率(图2)。容错能力测试显示,在模拟2%错误率(置换:缺失:插入=2:1:1)时,INNSE重建图像的PSNR(33.54 dB)和SSIM(0.89)分别提升80.88%和63.82%,而DNA-QLC因元数据损坏完全失效(图3-4)。鲁棒性实验中,1%置换错误率下仍保持100%二进制数据恢复率,且重建图像视觉质量稳定(图5-6)。扩展实验在Kodak数据集验证其普适性,24幅图像平均PSNR>25 dB,显著优于DNA-QLC的15-20 dB(表2-3,图7-8)。
该研究的核心突破在于将可逆神经网络引入DNA存储领域:网络的双向处理特性既通过降采样减少存储需求,又能通过逆向过程预测丢失的高频信息;密码本生成器与自校正算法的协同设计,则首次实现了不依赖冗余信息的动态纠错。值得注意的是,该方法对第三代测序常见的A-T/C-G突变具有独特优势,其滑动窗口机制可阻断错误传播的"雪崩效应"。未来通过集成多尺度网络模型和加密技术(如DNA-Aeon),有望进一步优化细节恢复和数据安全性。这项技术为医疗影像长期归档、卫星遥感数据保存等场景提供了兼具经济性和可靠性的解决方案,推动DNA存储从实验室走向实际应用。
生物通微信公众号
知名企业招聘