编辑推荐:
在计算材料设计与发现中,量子力学模拟成本高,且 DFT 无法描述分子晶体激发态性质,数据获取困难限制了机器学习应用。研究人员开展 PAH101 数据集研究,得到 101 种多环芳烃分子晶体的 GW+BSE 计算数据,为材料研究提供关键资源。
在神奇的材料科学世界里,科学家们一直努力探索如何精准预测材料的电子和光学性质,从而设计出性能卓越的新型材料。计算材料设计与发现是实现这一目标的重要途径,它借助量子力学方法在广阔的化学空间中 “寻宝”。然而,这条探索之路困难重重。量子力学模拟的计算成本会随着方法精度和系统规模的增加而迅速攀升,这使得在合理时间内开展大规模、高精度的模拟研究变得异常艰难。
密度泛函理论(DFT)是目前第一性原理模拟的 “主力军”,它凭借计算效率高的半局部泛函在高通量材料筛选中得到广泛应用。但 DFT 有个致命弱点,它本质上是一种基态理论,无法描述材料的激发态性质,比如基本带隙、单重态和三重态激发能、光学带隙以及光吸收光谱等。这些激发态性质对于有机电子器件的应用至关重要,却难以通过 DFT 获取。虽然含时密度泛函理论(TDDFT)能相对高效地计算孤立分子的激发态,但对于晶体系统却力不从心。而基于格林函数的多体微扰理论(MBPT),在 GW 近似和 Bethe-Salpeter 方程(GW+BSE)的帮助下,虽然能有效计算晶体系统的激发态性质,但高昂的计算成本使其难以用于大规模材料探索。
机器学习(ML)技术的出现,为解决这些难题带来了新希望。它可以绕过昂贵的第一性原理模拟,通过构建统计模型进行材料性质预测。但训练 ML 模型,尤其是深度神经网络(DNN),需要大量数据。目前,DFT 数据集虽多,但主要集中于结构和基态性质;而 GW+BSE 数据集因计算成本高,数量稀少且数据量小,这严重限制了 ML 在分子晶体激发态性质研究中的应用。
在这样的背景下,卡内基梅隆大学等机构的研究人员挺身而出,开展了一项具有开创性的研究。他们构建了 PAH101 数据集,包含 101 种多环芳烃(PAHs)分子晶体的 GW+BSE 计算数据,这在该领域尚属首次。该研究成果发表在《Scientific Data》上,为材料科学领域的研究开辟了新方向。
研究人员在研究过程中运用了多种关键技术方法。首先,从剑桥结构数据库(CSD)提取 101 种分子晶体的起始几何结构,针对部分 CIF 文件中氢原子位置缺失的问题,开发了 Hydrogen Append(HAppend)代码添加氢原子。然后,使用 CASTEP 或 FHI-aims 进行全晶胞弛豫,采用 Perdew, Burke, and Ernzerhof(PBE)交换关联泛函和 Tkatchenko-Scheffler(TS)成对色散方法。接着,利用 FHI-aims 计算 DFT 特征,使用 Quantum ESPRESSO 计算 DFT 本征向量和本征值,为 GW+BSE 计算做准备。最后,借助 BerkeleyGW 包进行 GW+BSE 计算。
研究结果
- 数据集构建:从 CSD 中提取未取代 PAHs 的晶体结构,形成 PAH101 数据集。该数据集涵盖多种 PAHs 亚类,分子大小从苯的 12 个原子到复杂分子的 136 个原子不等,晶胞原子数从联苯的 44 个到 1,2,3,4,6,8,9,10,11,13 - 十苯基并五苯的 544 个。数据记录以 YAML 格式存储,包含结构 ID、几何结构、DFT 特征和 GW+BSE 计算的电子与光学性质等信息。
- 结构验证:通过计算弛豫结构与实验结构的均方根距离(RMSD)来验证晶体结构。多数结构的 RMSD 低于 0.3 ?,虽部分结构偏差较大,但 PBE+TS 的性能仍在可接受范围内。
- GW+BSE 收敛性:研究发现 GW+BSE 计算结果对多个参数敏感,所选参数在准确性和计算成本间取得平衡。如增加 k 点数量、空带数量和精细带数量,对 GW 带隙、光学带隙和吸收光谱的影响在可接受范围内。
- 光学吸收验证:将 GW+BSE 计算的光学带隙与实验值及其他文献值对比,多数情况下误差在 0.2 eV 以内。吸收光谱与薄膜实验数据对比,部分材料吻合良好,部分则更具定性意义。
研究结论与讨论
PAH101 数据集是目前最大的分子晶体 GW+BSE 数据集,具有极高的价值。它为研究人员提供了丰富的数据资源,有助于发现具有理想电子和光学性质的材料,可用于评估材料在单重态裂变(SF)、三重态 - 三重态湮灭(TTA)和热激活延迟荧光(TADF)等过程中的应用潜力,进而提高有机太阳能电池和有机发光二极管(OLED)的效率。同时,该数据集能帮助研究人员探索 DFT 和 GW+BSE 值之间的相关性,为评估 DFT 模型预测能力提供依据。此外,还可用于训练 ML 模型,推动材料发现的研究进展,也能作为其他数据集的补充,训练多保真度 ML 模型。
尽管 PAH101 数据集意义重大,但研究也存在一些局限性。如实验与理论计算结果存在差异,可能源于晶体结构的不确定性、计算方法的近似性等。未来研究可进一步优化计算方法,提高计算精度,同时开展更多高质量实验,为理论计算提供更准确的参考,从而更深入地研究分子晶体的激发态性质,推动有机电子器件领域的发展。