Subgrapher:化学结构视觉指纹识别的创新方法及其在分子检索中的应用
《Journal of Cheminformatics》:Subgrapher: visual fingerprinting of chemical structures
【字体:
大
中
小
】
时间:2025年10月01日
来源:Journal of Cheminformatics 5.7
编辑推荐:
本期推荐一项化学信息学创新研究:为解决专利文档中分子结构图像难以检索的难题,Morin团队开发了Subgrapher视觉指纹识别方法。该技术通过实例分割直接识别功能基团和碳骨架,构建基于子结构的指纹图谱,在JPO、USPTO-10K-L等数据集上显示出优于传统OCSR方法的检索性能,为分子和Markush结构检索提供了新范式。
在化学信息爆炸式增长的时代,海量的分子信息散落在科学文献和专利文档中,其中专利文档尤为特殊——它们包含大量以图像形式存在的分子结构信息,却无法通过传统文本搜索有效获取。这些化学结构图像如同被锁在保险箱中的珍宝,虽然价值连城却难以利用。更棘手的是,专利中广泛存在的Markush结构(用于定义广义分子类的表示方法)和非常规绘制方式,使得传统的化学结构识别方法力不从心。
传统的OCSR(光学化学结构识别)方法试图将分子图像完全重建为分子图或SMILES(简化分子线性输入规范)字符串,这一过程如同将一幅画作完全拆解再重新组装,不仅步骤繁琐,而且容易因图像质量、绘制规范等因素出现误差。此外,许多应用场景并不需要完整的分子结构信息,研究人员往往更关注分子中是否含有特定的功能基团或子结构。
针对这一挑战,来自IBM研究院和ETH Zürich的Morin团队在《Journal of Cheminformatics》上发表了一项创新研究,提出了名为Subgrapher的新方法。该方法摒弃了传统的“图像→SMILES→指纹”的两步走策略,开创性地实现了从化学结构图像直接生成分子指纹的一步式转换,犹如为化学家提供了一把能够直接解读结构图像的“智能钥匙”。
研究团队采用了几项关键技术方法:首先构建了包含1534个功能基团和27种碳骨架模式的子结构库,覆盖有机化学中广泛存在的子结构;然后利用基于Mask R-CNN的实例分割模型实现像素级精度的子结构识别;接着通过空间重叠关系构建子结构图;最后将图结构转换为基于计数的连续指纹SVMF(子结构视觉分子指纹)。训练数据通过扩展MolDepictor合成数据生成管道获得,包括分子和Markush结构图像及其掩码标注。
研究人员在三个基准数据集上评估了子结构检测性能:包含专利分子图像的JPO数据集、大分子图像数据集USPTO-10K-L和Markush结构数据集USPTO-Markush。通过子结构F1分数(S-F1)和分子精确匹配(M-EM)指标,SubGrapher在JPO数据集上获得92%的S-F1和83%的M-EM,在具有挑战性的低质量图像上表现稳健。在USPTO-10K-L数据集上,SubGrapher的S-F1达到97%,显著优于其他深度学习方法,表明其对大分子图像的良好适应性。在USPTO-Markush数据集上,SubGrapher以88%的S-F1领先,凸显其处理复杂Markush结构的独特优势。
定性分析显示,SubGrapher能够准确识别含有标注文本或质量较低的分子图像中的功能基团,对复杂Markush结构和科学出版物中非常规绘制方式也表现出强大识别能力。与基于图像描述的方法不同,SubGrapher的预测保留了输入图像中子结构的空间排列信息,为人工解读提供了有价值的信息。
在分子检索任务中,研究团队构建了五个基准数据集(腺苷、樟脑、胆固醇、柠檬烯和吡啶),每个包含500个结构相似分子的增强图像。SubGrapher与OSRA结合RDKit Daylight/MHFP、MolScribe结合RDKit Daylight/MHFP等方法进行比较。评估采用平均排名指标,即查询分子在检索结果中的位置。
SubGrapher在樟脑、胆固醇和吡啶数据集上排名第一,在腺苷和柠檬烯数据集上排名第二,平均排名为95,显著优于其他方法。这种性能优势源于SubGrapher的单步方法即使在不完全确定的情况下也能生成具有区分度的指纹,而OCSR基于方法将无效SMILES映射到相同指纹,降低了排名质量。研究表明,将分子图像直接转换为指纹的单步方法能够产生更具区分性的表示。
研究人员演示了SubGrapher在专利文档“US20100016341A1”中检索Markush结构的实际应用。通过DECIMER分割模型从文档54页中提取356张图像,使用SubGrapher转换为SVMF指纹后,成功将查询的Markush结构正确检索为第一匹配结果。这种检索能力对于专利文档中的自由实施和现有技术搜索等关键应用具有重要价值。
SubGrapher研究代表了化学信息处理范式的重要转变,将传统的化学结构识别与指纹生成融合为统一流程。该方法不仅为分子和Markush结构图像检索提供了高效解决方案,还展示了像素级掩码监督在化学图像识别中的价值。尽管仅使用合成图像训练,SubGrapher展现出强大的现实数据泛化能力,为化学文献的智能挖掘和分子信息的高效利用开辟了新途径。随着化学数据量的持续增长,这种直接从图像中提取化学信息的创新方法有望在药物发现、材料科学等领域发挥越来越重要的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号