自适应空间群多样性控制的晶型结构预测算法ParetoCSP2及其在无机材料多晶型发现中的应用

【字体: 时间:2025年09月27日 来源:Advanced Science 14.1

编辑推荐:

  本文提出了一种用于多晶型晶体结构预测(Polymorphism CSP)的多目标遗传算法ParetoCSP2,通过引入自适应空间群多样性控制技术、可持续年龄-适应度帕累托优化(AFPO)机制和神经网络原子间势(IAP)引导,显著提升了多晶型结构的搜索效率和预测精度。该算法不仅有效缓解早熟收敛问题,还大幅提高了收敛速度,在基准测试中多项性能指标提升44.8–87.04%,为无机功能材料的设计与发现提供了强有力的计算工具。

  
引言
多晶型(Polymorphism)是指同一化学组成的材料能够以多种晶体结构形式存在的现象,这种现象在材料科学中具有深远的影响。无机材料中的多晶型多样性可显著影响其电子结构、光学行为、机械强度和化学反应性等功能性质。例如,SiO2存在石英、方石英和鳞石英等不同晶型,各自具有不同的热稳定性和光学性质;碳元素可形成石墨(柔软、导电)和金刚石(坚硬、绝缘)等截然不同的同素异形体。准确预测多晶型对于理解材料稳定性关系、指导合成实验以及发现具有特定性能的新材料至关重要,可避免大量试错实验。
然而,针对无机材料多晶型结构的有效预测算法仍然有限。传统晶体结构预测(CSP)方法如USPEX、CALYPSO和AIRSS依赖于昂贵的第一性原理计算,难以应对高通量材料发现任务。尽管深度学习方法如M3GNet和CHGNet等机器学习原子间势(ML IAP)已用于替代密度泛函理论(DFT)计算以加速结构预测过程,但现有算法如GN-OA和ParetoCSP在预测多晶型结构时仍存在空间群多样性不足、收敛速度慢以及无效结构生成率高的问题。
ParetoCSP2算法设计
ParetoCSP2是一种基于多目标优化的多晶型CSP算法,在ParetoCSP基础上进行了多项关键改进。算法采用NSGA-III多目标遗传算法(GA)结合年龄-适应度帕累托优化(AFPO)机制,并引入空间群多样性控制技术。算法输入为化学组成(如SrTiO3),输出为晶体的空间群、晶格参数、Wyckoff位置和原子坐标。
算法的核心创新在于将空间群频率作为独立的优化准则。通过最小化种群中相同空间群结构的数量,算法能够在帕累托前沿演化出具有更低能量和年龄的多样化结构。此外,算法采用PyXtal库中的结构生成方法替代随机初始化,显著提高了初始种群中有效结构的比例。每个世代后对所有结构进行弛豫操作,使用M3GNet或CHGNet等ML IAP预测能量,加速收敛过程。
算法流程包括:1)使用PyXtal生成初始种群并分配基因型年龄;2)计算各空间群的出现频率;3)解码结构并进行弛豫;4)评估三个优化目标(能量、年龄和空间群多样性);5)通过遗传操作(交叉和变异)产生新个体;6)跟踪每个空间群中能量最低的j个结构。终止条件为达到最大世代数,最终输出帕累托前沿中的非支配解。
多晶型预测性能评估
为评估ParetoCSP2的多晶型预测能力,研究从Materials Project数据库选取了50个具有多晶型的化学式,包含二元、三元和四元晶体,单位晶胞原子数≤20,多晶型数量≤10。评估指标包括空间群覆盖率和StructureMatcher匹配率。
结果表明,ParetoCSP2在预测2-3个多晶型的化学式时表现优异,平均空间群覆盖率达96.67%,StructureMatcher匹配率达100%。随着多晶型数量增加,覆盖率逐渐下降,对于具有10个多晶型的化学式,空间群覆盖率为30%,StructureMatcher匹配率为60%。算法成功预测了ZnS的纤锌矿和闪锌矿两种多晶型,但对SiO2的预测仅成功获得方石英结构,未能预测α-石英结构,表明算法在捕获完整多晶型多样性方面仍存在局限。
常规CSP性能比较
在常规CSP任务中,ParetoCSP2与ParetoCSP和GN-OA算法在包含120种晶体的基准集上进行了比较。评估指标包括能量距离(ED)、Sinkhorn距离(SD)、Chamfer距离(CD)、Hausdorff距离(HD)和指纹距离(FP)。
ParetoCSP2在所有指标上均显著优于对比算法:ED指标提升53.33-87.04%,SD提升48.01-59.08%,CD提升44.81-66.33%,HD提升50.74-61.61%,FP提升46-55.98%。空间群匹配率和StructureMatcher匹配率分别比ParetoCSP提高165.34%和146.10%,比GN-OA提高762.07%和611.07%。
空间群多样性分析
ParetoCSP2在空间群多样性方面表现出显著优势。在种群规模为100的情况下,算法在早期世代(50代)和终止时(250-1000代)均能维持25-30个不同空间群的结构,而ParetoCSP和GN-OA通常仅能产生不到5个空间群的结构。案例研究显示,ParetoCSP2能够快速增加空间群多样性并在较高水平上稳定,而对比算法的空间群多样性始终保持在较低水平。
有效结构生成分析
PyXtal初始化使ParetoCSP2在首代即能产生超过50个有效结构,而随机初始化方法通常只能产生不到10个有效结构。算法终止时,ParetoCSP2仍能维持较高数量的有效结构,表明其空间群特异性优化准则有助于探索更多样化的空间群并保持结构有效性。
收敛速度分析
ParetoCSP2的收敛速度显著快于对比算法,通常能在1-10代内找到最优结构,而对比算法往往需要在算法终止后进行结构弛豫才能找到最优结构。迭代弛豫策略使算法能够使用更精细的结构进行操作,加速向最优解的收敛。
失败案例与局限性
尽管性能优异,ParetoCSP2仍存在一些失败案例,特别是在低对称性空间群(如单斜和正交晶系)的预测中表现不佳。低对称性空间群具有更少的对称操作和更多的一般Wyckoff位置,导致搜索空间急剧扩大。ML IAP模型在捕捉结构相似的低对称性构型之间的精细能量差异方面存在局限,有时会为中间结构分配错误的能量值,误导搜索过程。
讨论与展望
ParetoCSP2通过空间群多样性控制、PyXtal初始化和迭代弛豫等创新技术,在多晶型CSP领域取得了显著进展。算法能够有效探索多样化的对称配置,保持种群多样性,并快速收敛到最优解。
未来的改进方向包括:1)开发更精确的ML IAP模型以捕捉细微能量差异;2)采用自适应交叉和变异策略应对低对称性结构的复杂性;3)实施顺序多晶型预测策略逐步缩小搜索空间;4)改进测试集以包含更多样化的多晶型样本。
这些改进将进一步提升算法在复杂多晶型系统预测中的能力,为功能材料的设计和发现提供更强大的计算工具。ParetoCSP2的开源代码已公开在https://github.com/usccolumbia/ParetoCSP2,促进学术共享和进一步开发。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号