基于定制化虚拟分子数据库的迁移学习策略提升有机光敏剂催化活性预测
《Communications Chemistry》:Transfer learning from custom-tailored virtual molecular databases to real-world organic photosensitizers for catalytic activity prediction
【字体:
大
中
小
】
时间:2025年10月02日
来源:Communications Chemistry 6.2
编辑推荐:
本研究针对催化研究中实验训练数据稀缺的难题,创新性地提出一种基于定制化虚拟分子数据库的迁移学习策略。研究人员通过系统组合和强化学习分子生成器构建了包含OPS样片段的虚拟数据库,并利用分子拓扑指数作为预训练标签,成功提升了图卷积网络对真实有机光敏剂在C-O键形成反应中催化活性的预测精度(R2最高达0.81)。该工作为小数据场景下的催化性能预测开辟了新途径。
在当代催化研究领域,机器学习方法的融入为催化剂设计带来了革命性机遇。然而,一个突出的瓶颈制约着其发展:实验数据的严重匮乏。特别是在光催化有机反应中,有机光敏剂的催化性能对反应成败具有决定性影响,但获取足量实验数据用于模型训练成本极高。这种"数据饥饿"问题使得传统机器学习方法在预测催化活性时表现受限,尤其当面对反应条件变化或新反应体系时,预测准确性往往难以保证。
针对这一挑战,名古屋大学的研究团队在《Communications Chemistry》上发表了一项创新研究,提出了一种基于定制化虚拟分子数据库的迁移学习新策略。该研究的巧妙之处在于,它不再依赖难以获取的实验数据或现有分子数据库,而是另辟蹊径,通过计算机生成虚拟分子来扩充训练资源。
为了构建有效的预训练模型,研究团队开发了两种虚拟分子数据库构建方法:系统片段组合法和基于强化学习的分子生成器。前者通过合理组合30个给体片段、47个受体片段和12个桥连片段,构建了包含D-A、D-B-A等多种结构的25,286个分子(数据库A)。后者则采用表格型强化学习系统,通过设置不同的探索-利用策略,生成了具有不同化学空间特征的数据库B、C、D。
研究的关键创新点在于预训练标签的选择。与传统方法不同,该团队没有使用计算成本高昂的量子化学性质或实验值,而是选择了16种分子拓扑指数作为预训练标签,如Kappa2、BertzCT、Kappa3等。这些指数虽然与光催化活性没有直观关联,但可以通过RDKit和Mordred描述符集低成本获取。通过SHAP值分析,团队最终确定了BertzCT、ABCGG和Kappa3等最具预测价值的拓扑指数作为预训练标签。
在模型构建方面,研究采用图卷积网络作为基础架构,该网络能够通过图卷积操作捕捉分子中原子(节点)和键(边)的关系。预训练阶段,模型学习预测虚拟分子的拓扑指数;微调阶段,则用真实OPSs的催化活性数据对模型进行优化。
研究采用多步骤计算策略:首先通过系统片段组合和强化学习分子生成器构建四个虚拟分子数据库;其次从RDKit和Mordred描述符集中筛选16种分子拓扑指数作为预训练标签;然后建立包含四层GCN的图卷积网络模型,使用虚拟数据库进行预训练;最后用100个真实有机光敏剂在镍/光催化C-O键形成反应中的产率数据进行微调验证,并通过10次随机划分训练集/测试集评估模型稳定性。
研究团队构建的四个虚拟数据库在化学空间和分子量分布上呈现显著差异。UMAP降维可视化显示,数据库B具有最宽的Morgan指纹化学空间,而数据库C因偏向利用策略而化学空间较窄但分子量较大。数据库A虽然分子量分布与B相似,但化学空间最为受限。这种多样性为后续迁移学习效果比较提供了理想平台。
在预测4-溴苯甲腈为底物的C-O键形成反应(CO-a)中,基于数据库B预训练的GCN模型表现最佳,R2达到0.80,显著优于未预训练模型(R2=0.48)和随机森林模型。在反应时间延长的CO-b任务中,数据库D预训练模型表现最优(R2=0.77),而结合数据库A和C的数据库E进一步将预测精度提升至R2=0.81。对于活性较低的4-氯苯甲腈底物(CO-c),数据库E预训练模型同样表现卓越(R2=0.77)。
研究进一步考察了该迁移学习策略在C-S键形成、C-N键形成和[2+2]环加成反应中的适用性。虽然预训练GCN模型相比基准模型均有改善(CS:R2=0.34;CN:R2=0.46;CA:R2=0.43),但预测精度仍不理想,表明对于本质上面临建模挑战的任务,仅依靠拓扑指数信息可能不足。
相关性分析揭示,有效的预训练标签(ABCGG、BertzCT、Kappa3)之间高度相关,且与C-O键形成反应产率中高度度相关(0.52-0.72)。而无效标签BCUTp-1l不仅与其他拓扑指数相关性低(0.09-0.17),与反应产率的关联也较弱(0.04-0.36)。这表明选择与预测目标具有较强相关性的分子属性作为预训练标签是提高迁移学习效果的关键策略。
本研究成功论证了从定制化虚拟分子数据库进行迁移学习在预测光催化活性方面的有效性。尽管虚拟数据库中94%-99%的分子在PubChem中未注册,且包含非常规化学结构,但它们提供的拓扑信息显著提升了GCN模型对真实OPSs催化活性的预测能力。
该研究的创新价值主要体现在三方面:方法论上,开发了基于强化学习的分子生成器和拓扑指数预训练策略,为小数据场景下的催化研究提供了新思路;实践价值上,仅需约40分钟即可构建高效的虚拟数据库,大幅降低了数据获取成本;科学启示上,发现与催化活性无直观关联的拓扑指数(如BertzCT)可作为有效的预训练标签,拓宽了分子表示学习的边界。
当然,研究也存在一定局限性,如虚拟数据库的构建依赖于分子片段组合,可能不适用于所有化学体系;对于某些挑战性任务,预测精度仍有提升空间。未来工作可探索结合量子化学计算描述符、优化数据库设计策略以及将该方法应用于贝叶斯优化等更复杂的催化优化场景。
总体而言,这项研究为克服催化研究中数据稀缺难题提供了创新解决方案,展示了虚拟分子数据库在迁移学习中的巨大潜力,为数据驱动的新型催化剂开发开辟了新途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号