基于子图匹配的高通量DNA适配体二级结构分类与机器学习可解释性研究

【字体: 时间:2025年06月29日 来源:Mathematical Biosciences 1.9

编辑推荐:

  为解决SELEX技术产生的海量DNA适配体候选序列难以通过实验筛选的问题,研究人员开发了基于子图匹配的Python工具GMfold,实现了高通量二级结构预测与机器学习聚类分析。该研究改进了开源代码SeqFold,提出最低能量二分图匹配算法,可在数分钟内完成数千条序列的结构比对,为发现低丰度高亲和力适配体提供了新方法。

  

在生物医学领域,DNA适配体(Aptamer)因其高亲和力、低免疫原性等优势,已成为抗体替代品的热门候选。然而通过指数富集配体系统进化(SELEX)技术筛选时,每次实验会产生数千条候选序列,传统实验方法仅能验证其中几十条高丰度序列,大量潜在优质适配体被埋没。更棘手的是,适配体的靶标结合能力高度依赖其二级结构,而现有预测工具如mfold计算效率低下,无法满足高通量分析需求。

为突破这一瓶颈,研究人员开发了名为GMfold的创新性Python工具。该工具将DNA二级结构预测转化为图论中的最低能量二分子图匹配问题,通过优化开源代码SeqFold的计算流程,实现了每分钟处理上千条序列的高通量分析。研究团队进一步结合机器学习算法,首次实现了基于二级结构相似性的适配体聚类分析,为挖掘低丰度高性能适配体提供了全新路径。

关键技术包括:(1)改进SeqFold 2.0算法提升计算效率;(2)开发GMfold子图匹配框架;(3)建立"结构面袋"(bag of faces)主题模型;(4)应用谱聚类等机器学习方法分析4550条去甲肾上腺素靶向适配体序列。

【Subgraph matching and free energy minimization for DNA folding】
研究提出将DNA分子视为图结构,碱基配对关系转化为边权重,通过寻找使自由能最小化的最大匹配子图来预测二级结构。相比传统方法,该算法将时间复杂度从O(n3)降至O(n2)。

【Numerical results for DNA folding】
在5条基准序列测试中,GMfold与mfold预测结果一致性达92%,运行速度提升300倍。对特殊结构如发夹环(hairpin loop)的预测准确率较SeqFold提高17%。

【Machine learning for high-throughput DNA structure clustering】
应用t-SNE降维可视化显示,去甲肾上腺素结合适配体在结构空间形成明显簇群,部分低丰度序列与高亲和力参考结构高度相似,验证了方法发现"隐藏瑰宝"的能力。

该研究突破了适配体开发的关键计算瓶颈,建立的GMfold-SeqFold 2.0协同工作流为:(1)加速SELEX候选筛选;(2)揭示结构-功能关系;(3)指导理性设计新型生物传感器。特别值得注意的是,Paolo Climaco等作者开发的完全开源工具链,使得即使没有超级计算资源的研究组也能进行大规模适配体挖掘。这项工作发表在《Mathematical Biosciences》,为机器学习辅助的核酸药物开发树立了新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号