《Smart Molecules》:Smart molecular design of NIR-II organic fluorophores through self-driven iterative evolution, deep learning, and fragment-based assembly
编辑推荐:
近红外二区(NIRII,1000–1700 nm)发射分子因其深层组织穿透、减少自发荧光和高信噪比而在生物医学成像、光疗和光电应用中备受重视。然而,其合理设计仍具挑战性,因为传统发现依赖于劳动密集型的合成、有限的量子化学计算和低效的试错探
近红外二区(NIRII,1000–1700 nm)发射分子因其深层组织穿透、减少自发荧光和高信噪比而在生物医学成像、光疗和光电应用中备受重视。然而,其合理设计仍具挑战性,因为传统发现依赖于劳动密集型的合成、有限的量子化学计算和低效的试错探索。为克服这些限制,研究人员引入了一种迭代的AI驱动分子进化策略(AI4NIRII 1.0),该策略整合了时变密度泛函理论(TDDFT)、基于Transformer的预测模型和生成式分子设计。从给体-受体-给体(D-A-D)和给体-给体-受体-给体-给体(D-D-A-D-D)片段支架出发,基于一个包含约16,000个分子的高质量数据集训练了吸收和发射性质的预测模型,这些分子由最优调谐范围分离的LC-ωHPBE*(OTRS)泛函标注。随后,研究人员将微调的生成模型整合到一个自优化循环工作流中,该工作流循环进行分子生成、性质筛选和数据集扩充。该模型在发射和吸收性质上均表现出优异的预测性能,即发射峰值波长的平均绝对误差为19 nm,吸收峰值波长的平均绝对误差为11 nm,波长和振子强度的相关系数(R2)超过0.98(与OTRS-TDDFT计算相比)。此外,所得框架通过精确的光物理性质预测高效识别有前景的NIRII候选分子,并实现了比TDDFT计算快三到四个数量级的速度提升。除了加速NIRII荧光团发现外,这种自驱动方法为NIRII分子设计建立了一个可扩展且可推广的范式,其适用性可扩展到光电材料和治疗化合物。
**论文解读:基于自驱动迭代进化、深度学习和片段组装的NIR
II有机荧光团智能分子设计**
**研究背景、问题与意义**
近红外二区(NIR
II,1000–1700 nm)发射分子因深层组织穿透、低自发荧光和高信噪比,在生物医学成像、光疗及光电领域具有重要价值。然而,其合理设计面临严峻挑战:传统方法依赖高成本合成、有限的量子化学计算和试错探索,仅能触及极小化学空间。基于密度泛函理论(DFT)和时变密度泛函理论(TDDFT)的计算虽能提供光物理性质预测,但NIR
II分子通常具有大π共轭骨架,导致激发态计算成本极高,难以用于大规模虚拟筛选。人工智能(AI)技术虽在分子发现中展现潜力,但现有模型常因训练数据质量有限、缺乏迭代反馈而难以探索新区域。为此,研究人员开发了一种自驱动迭代AI分子进化策略(AI4NIR
II 1.0),整合片段基化学空间构建、高保真量子化学标记、深度学习性质预测与自适应分子生成,旨在系统探索化学空间并高效识别NIR
II候选分子。该研究发表于《Smart Molecules》,为NIR
II分子设计建立了可扩展、可推广的范式,并可拓展至光电材料和治疗化合物。
**关键技术方法**
研究人员首先开发了片段基组合算法(FragCombi脚本),从文献中收集给体与受体片段,基于预定义连接规则自动组装给体-受体-给体(D-A-D)和给体-给体-受体-给体-给体(D-D-A-D-D)骨架分子库。初始三维构象通过RDKit的ETKDGv2算法生成(最多100个构象/分子),经MMFF94力场优化后,使用B3LYP/6-31G(d)方法优化基态和激发态几何结构,再采用最优调谐范围分离LC-ωHPBE
*/6-31G(d)方法计算发射与吸收波长及振子强度,构建高质量标记数据集(约16,000个分子)。基于Uni-Mol的深度学习模型进行回归预测;条件生成模型(cMolGPT)预训练后,以NIR
II发射分子微调,并融入自优化循环:生成新分子→预测筛选→扩增微调集。通过主成分分析(PCA)、扩展连通性指纹(ECFP)聚类和Tanimoto相似性分析评估化学空间扩展。
**研究结果**
**3.1 分子发现与设计工作流概述**
通过整合片段基化学空间构建、DFT/TDDFT标记、深度学习预测与自驱动分子生成,形成了闭环工作流。研究人员从D-A-D和D-D-A-D-D骨架出发,程序化组装分子库,经构象采样和TDDFT计算获得训练数据,再用Uni-Mol模型预测性质,最后通过条件生成模型迭代探索新化学空间。
**3.2 预测性能分析**
对比TDDFT计算值与AI模型预测值,发射与吸收峰值波长的决定系数(R
2)分别为0.9850和0.9895,平均绝对误差(MAE)为19 nm和11 nm;振子强度的R
2分别为0.9839和0.9873。与文献实验值对比,预测绝对误差在5–90 nm(对应能量误差0.01–0.11 eV),处于可接受化学精度。计算效率方面,模型比TDDFT快3–4个数量级(从数天/分子降至数秒至数分钟)。
**3.3 化学空间覆盖与多样性的比较分析**
通过凸包分析PCA降维空间,pool0、pool1、pool2的凸包面积单调递增,其中pool2较pool0扩大27%。pool2中捕获了pool1未出现的独特结构,表明迭代生成策略有效增强了化学空间覆盖度和多样性。
**3.4 有前景候选分子的化学空间探索**
以发射峰值波长与振子强度乘积(λ·?)排序前60个分子均为训练集未出现的新结构。这些分子分为三类:Class I为片段重组(已知片段新排列),Class II为拓扑扩展(保留D-D-A-D-D骨架但引入新给/受体单元),Class III为全新给-受体组合模式(如D-A-D-A-D、D-D-A-A-D-D等)。合成可行性评估(SAScore)显示,76.2%的候选分子得分低于4.5(易合成),96.5%低于5.0。
**3.5 AI4NIR
II 1.0的可访问在线界面**
研究人员部署了在线平台(http://www.ai4optoelectro.com/),支持快速预测吸收/发射波长及振子强度,并允许按波长和振子强度查询训练集与生成集数据。
**总结与结论**
该工作开发了一种自优化循环AI驱动策略,用于NIR
II发射分子的自主发现。通过整合DFT数据生成、Transformer性质预测与迭代生成建模,框架系统探索化学空间并高效识别具理想光物理性质的候选分子。迭代设计范式实现分子库的持续扩展与精炼,兼具结构多样性与功能相关性。相较于传统合成驱动或DFT方法,该方法在可扩展性、效率和适应性上具有显著优势。此统一工作流利用片段基化学设计、量子化学标记与自适应AI引导探索,高效识别性质优异的多样化分子候选。
**当前讨论与未来方向**
需要注意的是,当前实现主要聚焦发射波长和振子强度预测,尚未纳入亮度、量子产率、复杂辐射与非辐射跃迁过程及振动耦合效应等关键光物理参数,这些将在2.0版本中补充。未来模型改进可引入溶剂相关描述符、三维构象特征和电子结构描述符。此外,所提出的迭代分子进化概念不限于NIR
II荧光团,可推广至其他光电材料及药物类化学空间。
**结论翻译**
在本工作中,研究人员开发了一种自优化循环AI驱动策略,用于NIR
II发射分子的自主发现。通过整合DFT数据生成、Transformer性质预测和迭代生成建模,该框架系统探索化学空间并高效识别具有理想光物理性质的候选分子。迭代设计范式实现了分子库的持续扩展与精炼,从而兼备结构多样性与功能相关性。与传统合成驱动或DFT方法相比,该方法在可扩展性、效率和适应性上具有显著优势。这一统一工作流利用片段基化学设计、量子化学标记和自适应AI引导探索,高效识别具有所需性质的多样化分子候选。