化学与物理引导的生成式AI加速绿色材料及溶剂发现

《Artificial Intelligence Chemistry》:Accelerated green material and solvent discovery with chemistry- and physics-guided generative AI

【字体: 时间:2026年01月04日 来源:Artificial Intelligence Chemistry

编辑推荐:

  本研究针对传统分子设计工具效率低、成本高的问题,开发了一种结合化学物理规则与生成式人工智能(GenAI)的新框架。研究人员集成Transformer、生成对抗网络(GAN)和变分自编码器(VAE)等模型,用于快速生成新型绿色溶剂,应用于CO2捕集和木质素提取。该方法实现了70%的分子有效性和94%的新颖性,模型训练时间低于1小时,分子生成仅需数秒,显著优于传统方法。通过集成机器学习评估环境可持续性,并结合逆合成分析确定绿色合成路径,为绿色材料发现和工艺优化提供了高效、可扩展的解决方案。

  
随着全球碳中和目标的推进,工业脱碳技术的创新成为关键。碳捕集、利用与封存(CCUS)以及木质纤维素生物质(如木质素、纤维素)的增值化利用,是难以减排行业的重要脱碳路径。其中,绿色溶剂,如低共熔溶剂和离子液体,能够高效捕集CO2并选择性提取木质素,从而促进木质素解聚为高附加值产品。然而,现有的分子设计工具通常速度缓慢且计算成本高昂,严重限制了绿色材料的创新步伐。传统方法如实验筛选和基于物理的评估不仅耗时耗力,而且在探索广阔化学空间方面存在固有局限。例如,汉森溶解度参数(HSP)虽能评估溶剂-溶质亲和性,但已实验表征的有机溶剂数量有限,数据集稀疏且存在化学偏差,使得溶剂发现多依赖于已知分子的手动启发式修改,难以触及未探索的化学空间。
为了突破这些瓶颈,一项发表于《Artificial Intelligence Chemistry》的研究提出了一种创新的数据驱动框架,利用生成式人工智能(Generative AI, GenAI)来加速绿色材料的发现。该研究由Eslam G. Al-Sakkari、Ahmed Ragab、Marzouk Benali、Olumoye Ajao、Daria C. Boffito和Hanane Dagdougui合作完成,他们开发了一种集成化学与物理规则的生成式AI方法,旨在快速、高效地设计新型绿色溶剂。
研究人员采用了几项关键技术方法来实现这一目标。首先,他们构建了一个集成生成模型,结合了生成预训练Transformer(GPT-2)、Wasserstein生成对抗网络(W-GAN)和卷积变分自编码器(CVAE),以从不同数据表示(文本和图像)中生成分子结构。其次,数据预处理阶段严格遵循人类专家设定的关键性能指标(KPI)阈值,通过汉森溶解度参数(HSP)和相对能量差(RED)筛选训练数据,确保生成模型聚焦于具有所需溶解特性的溶剂。第三,他们引入了物理和化学引导的自动标注与验证机制,利用RDKit等工具进行分子有效性检查,并开发了基于大型语言模型(如Llama、BERT)的自动标注系统来验证生成的简化分子线性输入规范(SMILES)代码。最后,通过集成机器学习模型预测生成溶剂的环境可持续性指标(如毒性LC50/LD50、闪点FPt),并结合逆合成分析工具(如ASKCOS、AIZynthFinder)评估合成可行性,从而形成一个从生成到评估的闭环系统。
数据预处理与准备
研究首先对原始数据进行清洗和格式化,确保数据质量。针对分子结构,主要采用SMILES代码表示,因其能有效提取分子特征。数据预处理包括去除无效SMILES、规范化编码以及去重,确保数据集的唯一性和准确性。人类专家根据HSP和RED值设定KPI阈值,指导模型生成符合要求的溶剂。
集成生成模型结果
在生成阶段,GPT-2、W-GAN和VAE模型被赋予初始相等权重,后续根据性能进行自适应调整。GPT-2在生成复杂分子结构方面表现最佳,首次生成试验中,CO2溶剂的有效性达56%,新颖性达88%;而W-GAN和VAE生成分子结构较简单,有效性高但新颖性低。通过增量学习,在第二次迭代后,模型整体有效性提升至71.3%,新颖性达94.4%,显著优于初始结果。
关键性能指标数值比较
生成分子的有效性通过RDKit和ChemSpider进行物理验证,同时采用LLM自动标注模型进行数据驱动验证,准确率达99.5%。通过集成ML模型预测HSP,计算RED值,筛选出“良好”溶剂。例如,对于CO2溶剂,GPT-2生成的分子中约70%被标记为良好,而使用混合数据集时该比例不足5%,凸显了基于高质量数据微调的优势。
逆合成分析结果
研究利用ASKCOS等工具对生成的分子进行逆合成分析,为实验合成提供可行路径。例如,针对CO2溶剂分子“CCOCCC(CC)OCC”,提出了平均合理性评分≥0.95的合成路线,为实验室验证提供了指导。
溶剂绿色度测试结果
环境可持续性评估显示,生成的溶剂在毒性(LC50> 1500 mg/L)和易燃性(闪点 > 150°C)方面表现良好。通过构建绿色度综合评分(GsScore),将溶剂按安全等级分类,便于排名和选择。
增量学习的作用
针对生成模型可能出现的“幻觉”现象(即生成不切实际的分子),研究采用增量学习策略,通过更新训练数据集(加入有效且符合KPI的新分子)来重新训练模型。这种迭代优化有效提升了生成分子的质量和相关性。
研究结论表明,该集成生成式AI框架能够快速、低成本地发现新型绿色溶剂,在CO2捕集和木质素增值化领域具有重要应用价值。通过物理化学规则引导和人类专家监督,确保了生成分子的有效性和实用性。未来工作将探索更先进的生成架构(如GPT-GAN混合模型)、强化学习(RL)优化以及量子启发计算,以进一步提升生成效率并降低环境足迹。该方法可扩展至其他材料发现和工艺设计领域,为可持续工业发展提供强大工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号