
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于像素-碱基编码本与中值滤波的DNA存储高保真图像重建技术研究
【字体: 大 中 小 】 时间:2025年06月18日 来源:Synthetic and Systems Biotechnology 4.4
编辑推荐:
为解决DNA存储中不确定碱基错误导致图像重建质量差的问题,研究人员开发了DNA-CTMF方法,通过Pixel-Base编码本和混沌系统确保序列生物兼容性,结合中值滤波消除盐椒噪声。实验表明,在5%错误率(其中2/3为插入/缺失)下,重建图像的PSNR达23、MS-SSIM超0.9,为高错误率DNA图像存储提供了跨学科解决方案。
随着现代信息技术爆发式增长,全球数据量预计2025年将达1.75×1014
GB,亟需突破性存储方案。DNA因其超高密度和稳定性成为最具潜力的介质,但合成与测序过程中的碱基错误(包括替换、插入和缺失)导致信息丢失,传统纠错码可能引入冗余或扩大错误。尤其对于图像数据,常规方法在高错误率下重建质量急剧下降,例如现有技术HL-DNA在0.5%错误率时SSIM仅0.55。
针对这一挑战,东南大学等机构的研究团队在《Synthetic and Systems Biotechnology》发表研究,提出DNA-CTMF方法。该方法创新性地将计算机图像处理技术与DNA存储结合,通过像素直接映射碱基序列、动态校正偏移碱基组、中值滤波降噪三大步骤,实现了高错误率下的图像高质量重建。
关键技术包括:1)构建含256种5碱基组合的Pixel-Base编码本,满足GC含量(40%-60%)和同聚物长度≤2的生物学约束;2)采用混沌系统(公式1-3)打乱像素排列,避免连续重复序列;3)基于编码本的自校正算法定位并修复插入/缺失(indels)导致的碱基偏移;4)中值滤波消除离散分布的盐椒噪声。实验使用Illumina测序平台和微流控芯片合成技术验证性能。
3.1 不同错误率下的可视化效果
模拟1%-5%错误率(替换:插入:缺失=8:1:1)显示,未滤波图像噪声随错误率增加,但轮廓仍清晰(图3)。经中值滤波后,5%错误率下PSNR仍达24,MS-SSIM保持0.93,显著优于其他滤波方法(图S10-S11)。
3.2 错误组成比例的鲁棒性
在插入/缺失占比升至2/3的极端情况下(图6),DNA-CTMF的MS-SSIM波动小于0.002,PSNR差异仅0.1,证明其对高indels的耐受性。而对比方法DP-ID在同等条件下性能骤降,因噪声扩散导致滤波失效。
3.3 多图像大规模验证
测试4000幅图像(含BMP/PNG格式)显示(图7),DNA-CTMF的SSIM均值达0.82±0.11,最高超DP-ID方法5.24倍。湿实验进一步验证:对256×256像素图像(6555条150 nt序列),实测55%替换+33%缺失+12%插入的错误分布下,重建图像PSNR稳定在28.3±1.2(图8)。
4.3 像素编码的普适优势
区别于压缩文件存储(如JPEG),像素矩阵编码能容忍单点错误。研究表明,JPEG文件0.01%字节错误即可导致不可逆损坏,而DNA-CTMF即使5%错误仍可保留主体信息。
该研究突破传统纠错码思维,首次将碱基错误转化为可滤波噪声,为DNA存储开辟了"容错重建"新范式。未来可结合深度学习特征提取(如Su等提出的方法)进一步提升复杂场景下的重建质量,推动DNA存储迈向大规模图像应用。
生物通微信公众号
知名企业招聘