
-
生物通官微
陪你抓住生命科技
跳动的脉搏
纳米孔测序与自举学习技术实现非经典碱基高通量直接解码
【字体: 大 中 小 】 时间:2025年07月31日 来源:Nature Communications 15.7
编辑推荐:
本研究针对非经典碱基(NCBs)高通量测序的技术瓶颈,开发了基于纳米孔测序和自举学习的直接解码方法。研究团队通过合成包含1024种NCB寡核苷酸的复杂文库,结合信号增强和数据拼接技术,训练出可同时识别经典与非经典碱基的AI模型,准确率>80%,特异性达99%。该成果突破了合成生物学和DNA存储等领域的技术壁垒,为扩展遗传密码研究提供了全新工具。论文发表于《Nature Communications》。
在生命科学的前沿领域,遗传密码的扩展一直是科学家们追逐的梦想。传统的DNA仅包含A、T、C、G四种碱基,而合成生物学通过引入非经典碱基(NCBs)创造了更丰富的遗传字母表。这些人工设计的xeno-核酸(XNAs)在病毒基因组学、合成生物学和DNA存储等领域展现出巨大潜力。然而,长期以来缺乏高通量测序技术直接读取这些"非天然"碱基,严重制约了相关研究的发展。现有技术如桑格测序和二代测序存在通量低、需要PCR扩增引入误差等问题,而纳米孔测序虽能直接读取核酸信号,但其标准碱基识别模型无法解析NCBs信号。
新加坡基因组研究院的研究人员通过创新性的方法解决了这一难题。他们首先验证了牛津纳米孔MinION系统可稳定测序含Px-Ds碱基对的XNA分子,单次运行可获得>230万条读长。通过设计包含1024种NCB寡核苷酸的训练文库,覆盖所有可能的6-mer序列背景,结合自举学习和数据增强技术,成功开发出能同时识别经典碱基和NCBs的深度学习模型。该研究实现了NCBs的直接高通量解码,准确率>80%,特异性达99%,相关成果发表在《Nature Communications》上。
关键技术方法包括:1) 采用mini-hairpin模板高效合成含Ds碱基的XNA文库;2) 利用纳米孔MinION R9.4.1芯片进行高通量测序;3) 开发基于Bonito框架改进的六字母碱基识别模型;4) 通过动态时间规整(DTW)算法优化信号-序列比对;5) 采用信号拼接技术增强数据多样性。
分析结果
XNA在纳米孔测序中保持高保真度
测序数据显示XNA与对照DNA模板的读长分布相似(中位数2.7kbp),覆盖度>97%。尽管XNA读长产量略低(均值81%),但无显著偏好性,证明纳米孔系统可稳定处理含NCBs的模板。
纳米孔产生独特的电信号特征
NCBs周围(±3bp)信号与对照差异显著(中位数差异>6倍),且错误模式具有重复性。标准碱基识别模型在NCBs邻近区域错误率高达60%,但远端区域(>6bp)保持正常(3%错误率),为训练数据准备提供了可靠基础。
复杂训练文库的构建
创新性地采用20-mer mini-hairpin模板进行酶法合成,使Ds插入效率>85%,远优于传统31-mer模板(40-60%)。最终文库包含1024种模板,覆盖6144种单NCB 6-mer背景。
自举学习与数据增强
通过信号拼接技术将真实XNA信号嵌入多样化DNA背景,使模型在保持经典碱基识别准确率(94%)的同时,将NCBs识别准确率提升至80%以上。冻结预训练网络底层参数的方法进一步提高了模型性能。
这项研究开创性地实现了非经典碱基的直接高通量测序,解决了合成生物学和DNA存储领域的关键技术瓶颈。所开发的六字母碱基识别框架为扩展遗传字母表研究提供了通用解决方案,使科学家能够更自由地设计和读取含非经典碱基的核酸分子。特别值得注意的是,该方法不依赖PCR扩增,避免了人为引入的错误,为研究天然存在的NCBs(如病毒中的修饰碱基)提供了新工具。未来通过优化纳米孔化学和NCBs结构设计,有望进一步提升对连续NCBs的测序能力,推动遗传密码扩展技术走向更广泛的应用。
生物通微信公众号
知名企业招聘