基于子图匹配的高通量DNA适配体二级结构分类与机器学习可解释性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月29日 来源：Mathematical Biosciences 1.9

编辑推荐：

　　为解决SELEX技术产生的海量DNA适配体候选序列难以通过实验筛选的问题，研究人员开发了基于子图匹配的Python工具GMfold，实现了高通量二级结构预测与机器学习聚类分析。该研究改进了开源代码SeqFold，提出最低能量二分图匹配算法，可在数分钟内完成数千条序列的结构比对，为发现低丰度高亲和力适配体提供了新方法。

在生物医学领域，DNA适配体（Aptamer）因其高亲和力、低免疫原性等优势，已成为抗体替代品的热门候选。然而通过指数富集配体系统进化（SELEX）技术筛选时，每次实验会产生数千条候选序列，传统实验方法仅能验证其中几十条高丰度序列，大量潜在优质适配体被埋没。更棘手的是，适配体的靶标结合能力高度依赖其二级结构，而现有预测工具如mfold计算效率低下，无法满足高通量分析需求。

为突破这一瓶颈，研究人员开发了名为GMfold的创新性Python工具。该工具将DNA二级结构预测转化为图论中的最低能量二分子图匹配问题，通过优化开源代码SeqFold的计算流程，实现了每分钟处理上千条序列的高通量分析。研究团队进一步结合机器学习算法，首次实现了基于二级结构相似性的适配体聚类分析，为挖掘低丰度高性能适配体提供了全新路径。

关键技术包括：（1）改进SeqFold 2.0算法提升计算效率；（2）开发GMfold子图匹配框架；（3）建立"结构面袋"（bag of faces）主题模型；（4）应用谱聚类等机器学习方法分析4550条去甲肾上腺素靶向适配体序列。

【Subgraph matching and free energy minimization for DNA folding】
研究提出将DNA分子视为图结构，碱基配对关系转化为边权重，通过寻找使自由能最小化的最大匹配子图来预测二级结构。相比传统方法，该算法将时间复杂度从O(n³)降至O(n²)。

【Numerical results for DNA folding】
在5条基准序列测试中，GMfold与mfold预测结果一致性达92%，运行速度提升300倍。对特殊结构如发夹环（hairpin loop）的预测准确率较SeqFold提高17%。

【Machine learning for high-throughput DNA structure clustering】
应用t-SNE降维可视化显示，去甲肾上腺素结合适配体在结构空间形成明显簇群，部分低丰度序列与高亲和力参考结构高度相似，验证了方法发现"隐藏瑰宝"的能力。

该研究突破了适配体开发的关键计算瓶颈，建立的GMfold-SeqFold 2.0协同工作流为：（1）加速SELEX候选筛选；（2）揭示结构-功能关系；（3）指导理性设计新型生物传感器。特别值得注意的是，Paolo Climaco等作者开发的完全开源工具链，使得即使没有超级计算资源的研究组也能进行大规模适配体挖掘。这项工作发表在《Mathematical Biosciences》，为机器学习辅助的核酸药物开发树立了新范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号