
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于子图匹配的高通量DNA适配体二级结构分类与机器学习可解释性研究
【字体: 大 中 小 】 时间:2025年06月29日 来源:Mathematical Biosciences 1.9
编辑推荐:
为解决SELEX技术产生的海量DNA适配体候选序列难以通过实验筛选的问题,研究人员开发了基于子图匹配的Python工具GMfold,实现了高通量二级结构预测与机器学习聚类分析。该研究改进了开源代码SeqFold,提出最低能量二分图匹配算法,可在数分钟内完成数千条序列的结构比对,为发现低丰度高亲和力适配体提供了新方法。
在生物医学领域,DNA适配体(Aptamer)因其高亲和力、低免疫原性等优势,已成为抗体替代品的热门候选。然而通过指数富集配体系统进化(SELEX)技术筛选时,每次实验会产生数千条候选序列,传统实验方法仅能验证其中几十条高丰度序列,大量潜在优质适配体被埋没。更棘手的是,适配体的靶标结合能力高度依赖其二级结构,而现有预测工具如mfold计算效率低下,无法满足高通量分析需求。
为突破这一瓶颈,研究人员开发了名为GMfold的创新性Python工具。该工具将DNA二级结构预测转化为图论中的最低能量二分子图匹配问题,通过优化开源代码SeqFold的计算流程,实现了每分钟处理上千条序列的高通量分析。研究团队进一步结合机器学习算法,首次实现了基于二级结构相似性的适配体聚类分析,为挖掘低丰度高性能适配体提供了全新路径。
关键技术包括:(1)改进SeqFold 2.0算法提升计算效率;(2)开发GMfold子图匹配框架;(3)建立"结构面袋"(bag of faces)主题模型;(4)应用谱聚类等机器学习方法分析4550条去甲肾上腺素靶向适配体序列。
【Subgraph matching and free energy minimization for DNA folding】
研究提出将DNA分子视为图结构,碱基配对关系转化为边权重,通过寻找使自由能最小化的最大匹配子图来预测二级结构。相比传统方法,该算法将时间复杂度从O(n3)降至O(n2)。
【Numerical results for DNA folding】
在5条基准序列测试中,GMfold与mfold预测结果一致性达92%,运行速度提升300倍。对特殊结构如发夹环(hairpin loop)的预测准确率较SeqFold提高17%。
【Machine learning for high-throughput DNA structure clustering】
应用t-SNE降维可视化显示,去甲肾上腺素结合适配体在结构空间形成明显簇群,部分低丰度序列与高亲和力参考结构高度相似,验证了方法发现"隐藏瑰宝"的能力。
该研究突破了适配体开发的关键计算瓶颈,建立的GMfold-SeqFold 2.0协同工作流为:(1)加速SELEX候选筛选;(2)揭示结构-功能关系;(3)指导理性设计新型生物传感器。特别值得注意的是,Paolo Climaco等作者开发的完全开源工具链,使得即使没有超级计算资源的研究组也能进行大规模适配体挖掘。这项工作发表在《Mathematical Biosciences》,为机器学习辅助的核酸药物开发树立了新范式。
生物通微信公众号
知名企业招聘