结构异构体累积分子指纹(SIC)方法:标准化结构异构关系的新策略

《Communications Chemistry》:Structural Isomer Cumulative molecular fingerprinting method (SIC) for standardizing structural isomeric relationships

【字体: 时间:2025年12月13日 来源:Communications Chemistry 6.2

编辑推荐:

  本文针对化学信息学中结构异构体关系标准化和化学空间分布评估的难题,提出了一种新型分子指纹方法SIC。该方法通过SICem(精确质量)和SICL(累积结构距离)双变量系统,实现了对位置异构、骨架异构和官能团异构的连续相对量化。研究发现SIC能够独立于数据集大小和分子量,有效识别与毒性化合物结构相似的内源性代谢物,为毒理学预测和安全评估提供了新工具。

  
在化学信息学和药物发现领域,分子指纹技术如同化合物的"身份证",被广泛应用于化合物相似性评估、生物活性预测和化学空间探索。然而,当面对结构异构体——这些分子式相同但结构各异的"双胞胎"或"多胞胎"化合物时,传统分子指纹方法显得力不从心。无论是基于原子对(AP)的全局结构描述,还是扩展连通性指纹(ECFP)的局部环境识别,都难以准确捕捉结构异构体之间微妙而重要的差异。特别是当分子量增大或数据集规模变化时,传统方法往往产生偏差,导致化学空间可视化失真,相似性评估失效。
这一技术瓶颈在实际应用中带来诸多困扰。在药物研发中,研究人员需要精确区分结构相似的化合物以评估其活性差异;在毒理学研究中,识别与已知毒物结构相似的内源性代谢物对安全评估至关重要;在代谢组学分析中,理解不同细胞器内代谢物的结构特征分布有助于揭示代谢通路的空间组织。然而,由于缺乏能够连续、相对评估结构异构体关系的标准化方法,这些应用领域的进展受到限制。
正是在这样的背景下,日本佐贺县唐津市的独立研究者鳥越大平(Taihei Torigoe)在《Communications Chemistry》上发表了创新性研究,提出了结构异构体累积分子指纹(SIC)方法,为这一难题提供了全新解决方案。
研究方法上,作者主要采用了以下几个关键技术:首先基于RDKit工具生成化合物的二维原子坐标并计算分子几何中心;使用SMARTS notation预定义子结构列表,涵盖C、N、P、O、S等关键原子类型;通过计算各子结构与分子中心的平面距离(Lsub),并与同分子式组内中位数距离(Lmedian)比较,识别结构分岔子结构;累积计算偏离子结构的距离与分子量乘积,最终通过除以单同位素精确质量进行归一化,得到SICL值。研究数据来源于多个公共数据库,包括YMDB(酵母代谢组数据库)、ECMDB(大肠杆菌代谢组数据库)、HMDB(人类代谢组数据库)以及T3DB和TOXRIC(毒性化合物数据库)。
Benchmarking the performance of chemical space visualization for structurally isomeric compounds
通过比较SIC与MQN、MAP4C、MHFP、MACCS Key、RDKit、ECFP和AP等传统分子指纹在化学空间可视化方面的性能,研究发现传统方法在处理C6H6O2(377个化合物)和C48H89NO18(31个化合物)两种异构体集合时,表现出强烈的数据集大小和分子量依赖性。主成分分析(PCA)结果显示,传统指纹的分布严重偏斜,而SIC则能稳定地捕捉结构差异,第一主成分(PC1)反映分子量变化,第二主成分(PC2)捕获细微结构差异。
Performance evaluation of molecular fingerprints/Tanimoto similarity scores and scaled SICl
在相似性评估方面,研究比较了传统Tanimoto相似性系数与SICL的表現。通过对五组结构异构体(C6H6O2、C12H14O7S、C6H16O18P4、C39H79N2O6P和C48H89NO18)的分析发现,传统指纹的相似性得分随分子量增加而趋近于1.0,而缩放后的SICL稳定在0.5-0.8之间,表现出分子量无关的特性。SICL的配对相似性得分也稳定在0.8-0.9范围内,且四分位距(IQR)分布稳定,不受分子量影响。
Benchmarking chemical space visualization performance using public compound databases
利用公共化合物数据库评估SIC的实用性时,研究发现SIC在可视化ECMDB、YMDB和HMDB等代谢物数据库时,能够展现最广泛的化学空间分布。相较于AP和ECFP因数据压缩效应导致的有限覆盖,SIC有效捕获了更广泛的结构多样性。基于HMDB的亚细胞定位分析显示,小分子代谢物在细胞核和线粒体中分布较广,而细胞质则包含更多高分子量化合物,反映了不同细胞区室的功能差异。在比较HMDB(2,933个内源性代谢物)和T3DB(3,457个毒性化合物)时,SIC清晰区分了两者的结构特征:HMDB化合物展现出广泛多样性,包括高分子量脂质,而T3DB化合物则偏向低分子量结构。
Evaluation of SIC utility based on structural distances between endogenous eukaryotic metabolites and toxic compounds
最为引人注目的是,SIC在识别与毒性化合物结构相似的内源性代谢物方面展现出卓越能力。研究发现了9种内源性代谢物与已知毒物在SIC定义的化学空间中位置邻近。其中,甲基琥珀酸(HMDB0001844,C5H8O4)作为已知毒性化合物的位置异构体,可能具有较高毒理学风险;己酸乙酯(YMDB01381,C8H16O2)可能通过酯酶(EC 3.1.1.x类)水解产生毒性形式;丙酮醛(HMDB0001167,C3H4O2)和丙醛(HMDB0003366,C3H6O)等含有活性醛基的化合物,在与衰老相关的积累和异常化学修饰背景下可能代表有害内源性物质。
在高相似度配对(得分≥0.9)分析中,SICL识别出94对化合物,其中位置异构体比例达22.3%,且无假完美匹配(不同结构得分=1.0);而ECFP和AP仅分别识别出27和26对,且存在多个假完美匹配情况。这表明SIC在评估异构体间细微结构相似性方面具有卓越分辨能力。
研究结论部分强调,SIC方法通过累积同一分子式组内子结构差异及其分子量权重,成功实现了对结构异构体关系的标准化和相对量化。与传统方法相比,SIC显著降低了对数据集大小和分子量的依赖性,能够连续评估从细微子结构变化到大范围骨架差异的结构距离。该方法在化学空间可视化、毒性化合物识别和代谢物结构多样性评估等方面展现出独特优势。
讨论部分指出,SIC的当前实现依赖于预定义的子结构列表,未来可通过整合三维结构描述符或量子化学信息(如电子密度分布)来增强对电子效应的捕获。虽然SICL的数据集依赖性在代谢组学比较中具有优势,但在药物发现等需要固定参考值的场景中可能需调整策略。
这项研究的重要意义在于,它为化学信息学领域长期存在的结构异构体关系标准化问题提供了创新解决方案,开辟了化学多样性评估和毒理学筛查的新途径。随着未来应用扩展到立体化学异构体评估以及与生物相似性的定量验证,SIC方法有望在药物设计、安全评估和代谢工程等多个领域发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号