基于确定性枚举和生成模型的分子指纹逆向工程方法研究

《Journal of Cheminformatics》:Reverse engineering molecules from fingerprints through deterministic enumeration and generative models

【字体: 时间:2025年10月17日 来源:Journal of Cheminformatics 5.7

编辑推荐:

  本研究针对ECFP指纹逆向工程这一挑战性难题,开发了确定性枚举算法和Transformer生成模型两种方法。研究人员通过解决线性丢番图系统和训练序列到序列模型,成功实现了从ECFP向量到分子结构的精确重建,在eMolecules和MetaNetX数据集上分别达到99.55%和99.66%的恢复率。这项工作不仅证明了ECFP指纹的可逆性,还为de novo药物设计提供了新工具,对化学信息学领域具有重要意义。

  
在分子设计领域,逆向工程一直是个令人着迷又充满挑战的研究方向。想象一下,如果能够像破译密码一样,从简单的分子指纹中还原出复杂的分子结构,这将为药物研发带来革命性的变革。然而,广泛使用的扩展连通性指纹(ECFP)由于在向量化过程中存在信息损失,长期以来被认为是不可能实现精确逆向工程的。这种认知甚至被用作保护敏感分子信息的安全屏障——毕竟,如果指纹无法还原为原始结构,分享指纹数据就无需担心泄露分子机密。
但人工智能的快速发展正在改变这一局面。近年来,深度学习模型在指纹逆向工程方面展现出惊人潜力,这不禁让人担心:ECFP数据共享是否真的安全?为了回答这个关键问题,Philippe Meyer等研究人员在《Journal of Cheminformatics》上发表了他们的最新研究成果。
研究人员采用了双管齐下的策略:一方面开发了基于数学严谨性的确定性枚举算法,另一方面构建了基于深度学习的生成模型。这种对比研究的设计思路十分巧妙,既保证了解决方案的完备性,又利用了人工智能的高效性。
关键技术方法
研究团队主要运用了三种核心技术:首先建立了连接原子签名(atomic signatures)与摩根位(Morgan bits)的字母表系统,通过分析MetaNetX、eMolecules和ChEMBL数据库的57万至71万个分子片段构建了映射关系;其次开发了基于整数分割和Young表aux的签名枚举算法,能够解决线性丢番图系统并满足一致性方程(CE)、图形化方程(GE)和分割方程(PE)的约束条件;最后设计了包含3个编码器和3个解码器模块的Transformer模型,使用SentencePiece tokenizer对SMILES字符串和ECFP向量进行标记化处理,采用两阶段训练策略(先在500万eMolecules分子上预训练,再在MetaNetX数据上微调)。
ECFP和分子签名在大型化学数据库中的分布
通过对三大化学数据库(MetaNetX、eMolecules和ChEMBL)的系统分析,研究人员发现ECFP和分子签名描述符呈现出相似的分布模式。随着半径r的增加,两种表征的区分能力都显著增强,但当半径从3增加到6时,共享相同描述符的分子分布几乎保持不变。特别有趣的是,MetaNetX数据库中的天然化合物显示出更高的局部环境重复频率,这反映了天然产物特有的结构特征。
字母表代表性分析显示,当半径r=2时,处理前10万个分子平均每个分子引入9.64个新字母表元素,但随着数据集扩大到500万分子,这一速率降至仅0.28。Pielou均匀度指数表明,在半径2的情况下,字母表已经达到了高度的化学空间代表性,这为后续的枚举算法奠定了坚实基础。
通过实例从ECFP生成与枚举分子的比较
以2-甲基-1,8-辛二醇为例,研究团队详细演示了确定性枚举算法的完整流程。从2048位ECFP4向量(包含18个非零分量,向量和为30)开始,算法首先从字母表中筛选出12个原子签名候选,然后建立18个分割方程并通过Young表aux求解整数分割,最终通过约束和图形化方程验证得到一个包含11个原子签名的有效分子签名。分子枚举算法随后从这些签名中重建出平面分子结构,并通过立体异构枚举获得了与原始分子完全匹配的结构。
相比之下,生成模型在同一ECFP输入上产生了前10个最可能的SMILES字符串预测,其中8个为有效分子,排名第一的预测与目标分子完全一致,Tanimoto系数为1。这个案例生动展示了两类方法的不同特点:确定性方法具有数学上的严谨性和完备性,而生成方法则提供了快速、高效的近似解决方案。
在大数据集上从ECFP生成与枚举分子的比较
当研究扩展到包含1万个分子的测试集时,两种方法的性能差异更加明显。确定性枚举算法在MetaNetX和eMolecules数据集上分别达到了99.66%和99.55%的惊人恢复率,平均计算时间约为9秒。特别值得注意的是,有175个MetaNetX的ECFP输入各自产生了10个以上的不同分子,其中10个异常值甚至生成了57到3558个分子,这些通常是对称性高或近线性的无环化合物。
生成模型在top-1预测中达到了79.41%(MetaNetX)和95.64%(eMolecules)的准确率,在top-100预测中进一步提升至94.88%和99.59%。然而,随着预测数量的增加,无效SMILES字符串的比例也显著上升,在top-100预测中达到38.34%至51.94%。模型在恢复唯一枚举分子方面表现优异(超过95%),但对于高对称性分子,恢复率降至28.8%甚至8.3%,显示了生成模型在化学空间覆盖方面的局限性。
与MolForge模型的生成与枚举分子比较
研究人员还将自己的生成模型与Ucak等人开发的MolForge模型进行了对比。由于ECFP表示(计数型vs二进制)、立体化学处理和数据集焦点等方面的差异,需要重新训练模型。结果表明,确定性枚举在所有数据集上都保持了超过97%的恢复率,而生成模型在二进制指纹评估中表现更好,这反映了预测比特存在与否比预测精确计数更为容易。
确定性枚举的应用:药物设计
最具应用价值的部分出现在药物设计领域。研究团队将确定性枚举算法应用于DrugBank数据库中的9516个药物分子,使用合并后的字母表(包含1,119,246个唯一元组)成功生成了3691个新分子。令人惊讶的是,其中21.08%(778个)的分子在PubChem中已有记录,469个化合物拥有相关专利,217个经过生物测定测试,170个显示出至少一个阳性生物活性结果。
以处于II期临床试验的10-硝基油酸(DB15026)为例,枚举产生的11个新分子中9个已在PubChem中收录,其中一个分子甚至拥有315项专利和3个阳性生物测定结果。减肥药物奥利司他(DB01083)的枚举产生了6个新分子,其中一个作为奥利司他衍生物已被收录并拥有2项专利。这些发现充分证明了该方法在de novo药物设计中的巨大潜力。
研究结论与意义
这项研究通过确定性枚举和生成模型的对比,彻底改变了我们对ECFP指纹可逆性的认知。确定性枚举算法基于分子签名和线性丢番图系统的数学框架,提供了近乎完美的分子恢复率(超过99%),但其计算强度随分子复杂性急剧增长的特点限制了其在超大规模应用中的实用性。生成模型虽然存在化学有效性问题和覆盖范围限制,但其高效性和扩展性为实时分子生成提供了可行方案。
这项工作的重要意义体现在三个层面:方法论上,建立了ECFP逆向工程的完整技术体系;应用层面上,为de novo药物设计提供了强大工具;安全层面上,对ECFP数据共享的风险提出了明确警示。特别值得关注的是,通过控制指纹类型(如使用FCFP代替ECFP),可以调节生成分子的多样性,从而实现化学空间的有导向探索。
未来研究方向可能集中在优化枚举算法的可扩展性、提高生成模型的化学有效性,以及开发混合框架结合两者的优势。正如作者所强调的,他们的确定性方法可以作为生成方法的基准测试工具,这种评估范式对整个化学信息学领域都具有重要参考价值。
这项研究不仅解决了ECFP逆向工程的基本科学问题,更重要的是打开了分子设计的新途径。在人工智能重塑科学研究的时代,这项工作展示了数学严谨性与数据驱动方法的完美结合如何推动化学信息学向前发展,为更智能、更高效的分子发现奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号