《npj Computational Materials》:Materials discovery acceleration by using conditional generative methodology
编辑推荐:
本研究针对目标导向材料设计效率低下的问题,开发了一种名为PODGen的高效、可迁移的条件生成框架。该框架通过将通用生成模型与多个性质预测模型相结合,并利用马尔可夫链蒙特卡洛(MCMC)采样,显著提升了生成特定性质材料的成功率。研究团队将该方法应用于拓扑绝缘体(TI)和拓扑晶体绝缘体(TCI)的发现,生成成功率比无约束方法提高了约5倍,并成功筛选出12种具有应用潜力的新型拓扑材料,其中5种位于势能面(PES)底部,具备较高的实验合成可能性。该研究为加速功能材料的定向设计提供了一种通用且高效的解决方案。
在材料科学的星辰大海中,寻找具有特定功能的“明星材料”一直是科学家们孜孜以求的目标。其中,拓扑绝缘体(Topological Insulator, TI)因其内部绝缘、表面导电的独特电子特性,在自旋电子学和量子计算等领域展现出巨大的应用潜力。然而,传统的“试错式”实验或理论计算不仅耗时费力,而且效率低下,如同大海捞针,难以满足现代科技对新型材料日益增长的需求。
近年来,人工智能(AI)技术为材料科学带来了革命性的变革。特别是生成模型,如扩散模型和自回归模型,通过学习已知材料数据库的分布,能够“凭空”创造出全新的晶体结构,极大地拓展了材料探索的边界。然而,这些通用生成模型存在一个核心痛点:它们虽然能生成大量结构,但其中真正具备我们所需特定性质(如拓扑性质)的材料比例极低。这就像一位漫无目的的画家,虽然画作众多,但符合特定主题的杰作却寥寥无几。因此,如何让AI模型“带着目标”去生成材料,即实现“条件生成”,成为提升材料发现效率的关键。
为了解决这一难题,来自中国科学院物理研究所、复旦大学等机构的研究团队在《npj Computational Materials》上发表了一项突破性研究。他们开发了一个名为PODGen(Predictive models to Optimize the Distribution of the Generative model)的高度可迁移、高效且稳健的条件生成框架。该框架的核心思想是,将通用生成模型提供的“结构概率”与性质预测模型提供的“性质概率”相结合,通过马尔可夫链蒙特卡洛(Markov Chain Monte Carlo, MCMC)采样技术,引导生成过程向目标性质分布靠拢。
为了验证PODGen的强大能力,研究团队将其应用于拓扑绝缘体的定向设计。他们设计了一套完整的高通量工作流程,从条件生成、结构优化、性质筛选到最终验证,环环相扣。研究结果表明,PODGen将拓扑绝缘体的生成成功率从无约束方法的约3%提升至15%以上,效率提高了约5倍。利用该方法,他们成功生成了19,324个拓扑材料,并从中筛选出12种具有直接带隙、动力学稳定且位于势能面底部附近的高潜力候选材料,为拓扑材料的实验合成与应用奠定了坚实的基础。
关键技术方法
本研究采用了一套整合了机器学习与第一性原理计算的高通量工作流程。其核心技术方法包括:
- 1.
PODGen条件生成框架:该框架整合了通用生成模型(CrystalFormer)和多个性质预测模型(用于预测拓扑、非金属、非磁性性质),通过马尔可夫链蒙特卡洛(MCMC)采样技术,将生成过程引导至目标性质分布。
- 2.
高通量晶体生成与筛选:利用PODGen生成候选结构后,采用机器学习力场(MLFF)模型(OpenLAM)进行结构弛豫,并利用SymTopo工具进行拓扑性质自动分类与筛选。
- 3.
第一性原理验证:对筛选出的高潜力候选材料,使用VASP软件包进行密度泛函理论(DFT)弛豫、能带结构计算和声子谱分析,以验证其电子性质、拓扑性质和动力学稳定性。
- 4.
势能面(PES)探索:采用随机表面行走(Stochastic Surface Walking, SSW)方法探索候选材料的势能面,评估其合成可能性。
- 5.
Wannier函数分析:利用WannierTools软件包,通过构建Wannier紧束缚模型,计算表面态和Wilson loop,进一步确认材料的拓扑性质。
研究结果
A. 条件生成框架
研究团队构建了PODGen框架,其核心在于将目标分布π(C)分解为生成模型提供的先验分布P(C)和预测模型提供的似然函数P*(y|C)的乘积。通过MCMC采样,该框架能够高效地从这一复杂的高维分布中抽取样本。在应用于拓扑绝缘体生成时,目标分布被具体定义为包含拓扑、非金属、非磁性性质概率以及元素偏好(如Sb, Te, Bi等重p区元素)的联合分布。
B. 晶体生成工作流程
研究团队设计了一套从生成到验证的完整工作流程。该流程始于PODGen的条件生成,随后利用机器学习力场(MLFF)进行结构弛豫,接着使用SymTopo工具进行拓扑性质快速评估,最后对高潜力候选材料进行第一性原理计算验证。这一流程具有高度的可迁移性,可应用于其他性质导向的晶体材料探索。
C. 拓扑材料条件生成
应用PODGen框架,研究团队成功生成了105,352个晶体结构,其中78,110个为唯一结构。在这些结构中,有11,914个被识别为拓扑绝缘体(TI),7,336个被识别为拓扑晶体绝缘体(TCI),总成功率达到25.18%。相比之下,使用无约束的CrystalFormer模型生成20,000个结构,仅得到620个TI和489个TCI,成功率为5.55%。这表明条件生成将拓扑材料的生成效率提升了约5倍。此外,条件生成还显著改变了生成材料的元素分布,使其更接近已知拓扑材料的特征,并探索了新的成分空间(如H元素的高频出现)。
D. 高潜力材料验证
从生成的拓扑材料中,研究团队筛选出104个具有直接带隙的候选材料进行进一步的第一性原理计算验证。经过DFT弛豫、能带结构计算和声子谱分析,最终确认了12种材料为动力学稳定(无虚频)的拓扑绝缘体或拓扑晶体绝缘体。这些材料在DFT弛豫后仍保持直接带隙,显示出良好的应用潜力。
E. WannierTools确认
为了进一步验证拓扑性质,研究团队选取了部分材料(如BaMo6As2Se6, RbSrBi, CsHgSb, Ca2AgAs)进行了Wannier函数分析。通过构建Wannier紧束缚模型,计算了表面态谱和Wilson loop。结果显示,这些材料在带隙内均存在明显的边界态,确证了其拓扑绝缘体性质。特别地,在Ca2AgAs中发现了双带反转现象,解释了其Z2拓扑不变量为(0;000)的原因。
结论与讨论
本研究成功开发了PODGen这一高度可迁移、高效且稳健的条件生成框架。该框架通过将通用生成模型与性质预测模型相结合,并利用MCMC采样,显著提升了目标导向材料设计的效率。研究团队将该框架应用于拓扑绝缘体的发现,证明了其有效性,生成成功率比无约束方法提高了约5倍。
PODGen框架的优势在于其高度的灵活性和低依赖性。它不依赖于特定的生成或预测模型,一旦基础生成模型训练完成,仅需针对特定性质训练一个预测模型即可实现条件生成,大大降低了训练成本和数据需求。对于被条件约束的性质,该框架能有效引导生成过程;对于未被约束的性质,生成结果则遵循基础模型的分布,保证了生成结构的化学合理性。
通过该框架,研究团队成功发现了12种具有直接带隙和动力学稳定性的新型拓扑材料,其中5种(如CsHgSb, NaLaB12, Bi4Sb2Se3, Be3Ta2Si, Be2W)位于势能面底部附近,具备较高的实验合成可能性。这些发现不仅丰富了拓扑材料的数据库,也为后续的实验研究提供了明确的目标。
尽管取得了显著成果,该框架仍有改进空间。例如,在MCMC状态更新过程中,目前仅修改了原子种类、原子坐标和晶格常数,而Wyckoff位置和空间群保持不变。未来,开发能够同时更新这些对称性相关参数的策略,将有望进一步提升框架的探索能力。