基于动态规划和电负性特征的SMILES分子全局比对算法开发与应用
《BMC Bioinformatics》:SMILES alignment: a dynamic programming approach for the alignment of metabolites and other small organic molecules
【字体:
大
中
小
】
时间:2025年10月19日
来源:BMC Bioinformatics 3.3
编辑推荐:
本研究针对代谢物等小分子有机化合物缺乏全局比对工具的问题,开发了一种基于Needleman-Wunsch动态规划算法的SMILES序列比对方法。通过引入Gasteiger电荷差异评分矩阵,该算法能够准确量化代谢途径中的分子转化过程,在Krebs循环和糖酵解途径验证中表现出色,为研究线性与环状代谢途径的演化机制提供了新工具。
在化学信息学和生物信息学领域,分子相似性比较一直是核心挑战。传统方法如Tanimoto系数和分子指纹虽广泛应用于药物发现和数据库管理,却存在明显局限:它们无法提供原子级别的全局比对,且忽略了关键理化性质如原子电负性。特别是在代谢途径研究中,缺乏能够追踪特定原子在生化转化过程中命运的工具,严重限制了对途径演化机制的理解。
为突破这一技术瓶颈,Tang和Liberles在《BMC Bioinformatics》上发表了创新性研究,开发了基于简化分子线性输入系统(SMILES)的全局分子比对算法。该研究巧妙借鉴了蛋白质序列比对的经典Needleman-Wunsch算法,但将其应用于小分子比对,并引入了基于Gasteiger原子电荷的创新评分系统。
研究团队首先从Reactome代谢数据库获取了1101个分子的SMILES表示,通过Indigo工具包进行标准化处理确保数据一致性。针对SMILES字符串的特殊性,他们开发了预处理流程,去除非原子字符后专注于原子部分电荷模式的比对。
核心技术方法包括:1)基于代谢数据库构建两种评分矩阵——全原子比对矩阵和特定原子对(如C-C、C-O)矩阵;2)利用RDKit计算Gasteiger-Marsili原子电荷;3)应用改进的Needleman-Wunsch算法进行动态规划全局比对;4)使用Krebs循环和糖酵解途径作为验证数据集评估算法性能。
研究首先检验了SMILES标准化过程的可靠性。通过系统地将代谢物中的氧原子替换为硫原子,评估标准化后字符串的稳定性。结果显示,Levenshtein距离和Tanimoto距离的变化均在可控范围内,证实了标准化处理对后续比对分析的有效性。
研究人员构建了全原子比对评分矩阵,该矩阵基于电荷差异的概率分布。如图4所示,随着原子间电荷差异增大,比对评分逐渐降低,且在0-1.2区间下降最为显著,反映小电荷差异在代谢数据库中更为常见。
针对特定原子对开发的评分矩阵显示出不同的特征。C-C、C-O和O-O原子对的评分曲线呈现反二次型初始形状,随后过渡为线性下降,与全原子矩阵的响应模式存在明显差异,表明特定原子对的电荷差异分布具有独特性。
在Krebs循环验证中,算法成功识别了已知的生化转化关系,最佳参数组合下Levenshtein相似度超过0.94。将该算法应用于Pentose Phosphate途径(PPP)和糖酵解途径,揭示了线性与环状途径的本质差异。
如图6-9所示,环状途径(PPP和Krebs循环)的分子相似性呈现先降后升的趋势,在途径中点达到最大差异后逐渐恢复相似性,符合环状途径的预期特征。相比之下,糖酵解作为线性途径(图10-11),分子相似性随途径推进持续下降,无回升现象。
与传统Tanimoto系数相比(图12),新算法更能捕捉代谢途径的动态变化特征,为研究代谢途径演化提供了更精细的工具。
该研究的创新性在于将序列比对概念成功拓展至小分子领域,首次实现了基于电负性特征的全局分子比对。算法不仅能够量化分子相似性,更能追踪特定原子在代谢转化过程中的命运,为理解代谢途径演化机制提供了全新视角。特别是对线性与环状途径转化模式的揭示,为探索代谢网络演化提供了量化依据。
研究的实际意义体现在多个方面:为化学信息学提供了新的分子比对工具;为进化生物化学研究提供了途径演化的分析框架;为药物设计中的分子相似性评估提供了更精确的方法。开源代码的发布确保了方法的可及性和可重复性,为后续研究奠定了坚实基础。
尽管算法在现有验证中表现出色,作者也指出了若干改进方向:对SMILES格式标准化的高度依赖、辅因子处理的简化、以及更复杂化学描述符的整合可能进一步提升算法性能。这些方向为未来研究提供了有价值的发展路径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号