
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于纳米孔测序与深度学习的单分子级DNA加密通信系统DeepSME:5hmC重修饰DNA的非经典碱基识别新范式
【字体: 大 中 小 】 时间:2025年05月03日 来源:Nature Communications 14.7
编辑推荐:
为解决DNA数据存储中化学修饰信息快速解码的难题,南方科技大学团队开发了纳米孔测序框架DeepSME。该研究通过5-羟甲基胞嘧啶(5hmC)全修饰干扰离子电流,结合三阶段训练流程构建非天然修饰碱基识别器,实现86.4% F1-score的单分子级隐私通信,为高密度生物分子加密存储提供新方案。
在数字信息爆炸的"泽字节时代",DNA因其超高存储密度和千年级稳定性成为理想存储介质。然而现有DNA存储方案面临两大瓶颈:一是传统加密依赖计算算法而非分子特性,二是测序技术对化学修饰DNA的识别能力有限。当牛津纳米孔技术(ONT)遇到非经典碱基时,常规碱基识别器(basecaller)会产生67.2%-100%的错误率,这反而为分子级信息加密提供了独特机遇。
南方科技大学的研究团队在《Nature Communications》发表的研究中,开发出名为DeepSME的革新性框架。该工作通过全基因组5-羟甲基胞嘧啶(5hmC)修饰构建"分子密钥",并首创三阶段训练流程开发专用碱基识别器,最终实现在16x测序深度下86.4% F1-score的加密信息还原,远超现有工具性能。
关键技术包括:1)设计覆盖99.93% 6-mer的质控序列库;2)基于CTC层(Connectionist Temporal Classification)的k-mer特征提取;3)采用R9.4.1纳米孔测序平台获取修饰DNA电流信号;4)通过模拟数据扩展k-mer词典至9-mer;5)微生物基因组验证框架泛化性。
结果解读
信息隐匿机制验证
通过全基因组5hmC替换实验证实,修饰后纳米孔电流信号产生显著偏移(MACD均值差0.58),导致商业碱基识别器Bonito产生80%误读率。电流热图显示#2位碱基修饰对信号干扰最显著,验证了非motif敏感型修饰的隐匿优势。
三阶段训练体系
6-mer质控阶段采用11条1145-1341nt序列构建初始模型;增强阶段通过squigulator模拟将k-mer词典扩展至49;强化阶段引入三种微生物全基因组数据。最终使精确度从0%提升至92.99%,召回率达92.93%,且2.22s长读长误差仅11.6%。
性能验证
在隐藏978字节文本和7775字节图像的5hmC-DNA测试中,DeepSME在16x覆盖深度下实现100%数据恢复,而Guppy 6.0仅5.45%。对比实验显示其F1-score(0.864)显著优于Rerio(0.040)等工具,且T-5hmC替换错误率(15.14%)揭示独特修饰特征。
讨论与展望
该研究突破性地将DNA修饰转化为加密要素:原始序列作为明文,纳米孔电流为密文,修饰类型与比例为密钥空间。计算显示采用140种碱基类似物的四区块加密可实现132.51比特密钥长度,满足NIST标准。团队已验证与后量子密码FrodoKEM的兼容性,为抗量子计算攻击奠定基础。
技术优势体现在:1)知识增长性:通过CTC层自主生成k-mer词典;2)免比对特性:固定1000bp分块策略降低计算负荷;3)先验知识无关:支持全新修饰类型开发。虽然绝对安全性仍受限于潜在的反向工程风险,但429种已知碱基修饰构成的分子密钥空间,结合边缘设备部署能力,使DeepSME在生物医疗加密、防伪溯源等领域展现出独特价值。
这项工作不仅建立了首个面向全修饰DNA的碱基识别框架,更开创了"合成生物学+密码学"的交叉研究范式。正如作者Fan Qingyuan等强调的,三阶段训练法的普适性可扩展至R10.4.1孔蛋白等其他纳米孔器件,为发展"不可克隆"的生物分子安全系统提供了关键技术支撑。
生物通微信公众号
知名企业招聘