编辑推荐:
在过渡金属配合物(TMCs)研究中,SMILES 表示存在局限。研究人员开展了 TMCs 结构到 SMILES 转换方法的研究。结果得到大量可用于机器学习的 SMILES 数据,该成果有助于 TMCs 性质研究及开发,为相关领域提供了重要基础。
在化学信息学和机器学习领域,有机分子的研究已相对成熟,SMILES 字符串和相关分子图作为基础,在数据共享和分析中发挥着重要作用,RDKit 也成为了事实上的标准工具。然而,对于过渡金属配合物(TMCs)而言,情况却大不相同。虽然从剑桥结构数据库(CSD)中提取 TMCs 的 SMILES 字符串是可能的,但仅有约一半能被 RDKit 解析,这严重限制了 TMCs 在化学信息学和机器学习中的深入研究。而且,从 TMCs 的结构和总电荷获得 SMILES/RDKit mol 对象的过程十分复杂,其涉及到过渡金属众多可能的氧化态和键合模式等化学特性,以往的研究在解决这些问题时也存在一定的局限性,如依赖复杂且耗时的密度泛函理论(DFT)计算等。因此,开发一种高效、准确的方法来生成 TMCs 的可被 RDKit 解析的 SMILES 字符串迫在眉睫,这将为 TMCs 的研究开辟新的道路。
为了解决上述问题,来自丹麦哥本哈根大学、英国约克大学、挪威奥斯陆大学的研究人员开展了深入研究。他们提出了一种基于 xyz 坐标和配合物总电荷创建可被 RDKit 解析的 TMCs 的 SMILES 字符串的方法,并利用该方法创建了包含 227,124 个 TMCs 的 SMILES 字符串的数据集。这一成果发表在《Journal of Cheminformatics》上,为 TMCs 的研究带来了新的突破。
研究人员在研究过程中用到了几个主要关键的技术方法。首先是利用原子距离和扩展休克尔(Hückel)计算来生成 SMILES,该方法通过一系列步骤,如计算初始邻接矩阵、识别配体、进行电荷猜测和调整等,最终生成可被 RDKit 解析的 SMILES。其次,借助 DFT 计算得到的自然键轨道(NBO)分析数据来生成 SMILES,同时还对 CSD 中的 SMILES 进行修复处理,使其可被 RDKit 解析,通过多种方法相互对比验证,确保研究结果的可靠性。
下面来看具体的研究结果:
- 比较 SMILES 集:研究人员对 tmQMg 数据集中的 TMCs,用三种方法生成 SMILES 并进行比较。发现 Hückel/distance 方法获得的有效 RDKit 可解析 SMILES 数量最多,DFT/NBO 方法最少。三种方法生成的 SMILES 在大量复合物上存在一致性,至少 70% 的复合物在三种方法生成的 SMILES 对比中存在较高匹配度 。不同方法生成的 SMILES 存在差异的原因包括配合物邻接矩阵、配体电荷和共振形式的不同。
- SMILES 分布:通过对生成的 SMILES 数据集分析,研究人员发现 TMCs 的氧化态分布广泛,多数在 0 - 6 之间,其中 + 2 最为常见,但也存在一些异常氧化态,部分可能是由于方法导致的不准确表示。同时,研究还揭示了 TMCs 中常见的配体配位环境,如氯离子、吡啶和羰基配位,这些信息对 TMCs 的设计和发现具有重要意义。
- ML 与 TMC SMILES 字符串:研究人员基于 Hückel SMILES 对 tmQMg 数据集训练了多种模型。结果表明,在预测极化率方面,不同方法差异不大;在预测 HOMO-LUMO 能隙时,基于 SMILES 图数据训练的模型与基于 DFT-NBO 数据训练的模型性能相当;而预测偶极矩对模型来说是最具挑战性的任务,由于 SMILES 缺乏 3D 信息,基于 SMILES 的模型在预测偶极矩时表现不如包含 3D 信息的模型。
- 一个包含 227k TMCs 的 CSD SMILES 数据集:研究人员从 CSD 中提取并处理得到大量可被 RDKit 解析的 SMILES,通过比较固定 CSD SMILES 和 Hückel SMILES,发现 69% 的 SMILES 在直接比较时相同,考虑共振形式和断开配体后,相同比例分别提高到 76% 和 79%。该数据集可用于训练基线 ML 模型,为更复杂的方法提供参考。
在研究结论和讨论部分,研究人员提出的 xyz2mol 方法仅需 xyz 文件和总电荷就能获得包含原子电荷和 TM 氧化态的 TMC SMILES。他们提供的两个大型 TMC SMILES 数据集,可用于训练基线 ML 模型,且基于这些 SMILES 的模型在预测极化率和 HOMO-LUMO 能隙时,与基于昂贵 DFT-NBO 计算的模型精度相当,展示了这些表示方法在 TMC 开发中的强大作用。不过,目前该方法仍存在一些无法准确描述的化学结构,如硼氢化物簇和高氯酸根离子。未来的研究方向将集中在扩展可描述的化学范围,同时提高 Hückel 方法的稳健性和可靠性,例如考虑过渡金属的优选氧化态,以及对潜在问题进行适当记录。这一研究成果为 TMCs 的研究和开发提供了重要的基础和方向,有望推动该领域在化学信息学和机器学习方面取得更大的进展。