SHNITSEL数据集:面向激发态学习的表面跳跃嵌套实例训练集——多参考量子化学计算与机器学习融合的新基准

【字体: 时间:2025年07月27日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对分子光化学与光物理研究中量子化学计算耗时且机器学习模型训练数据匮乏的难题,开发了包含418,870个数据点的SHNITSEL数据库。研究人员通过多参考方法(CASSCF/MR-CISD等)计算了9种有机分子在基态与激发态(单重态/三重态)的能量(Ei)、力(Fi)、偶极矩(μi)及非绝热耦合(NAC)等关键性质,首次实现了跨自旋多重度的激发态性质标准化数据集构建,为开发可迁移的机器学习力场(ML)模型提供了重要基准。

  

在理解光合作用、光催化等自然现象的过程中,分子激发态动力学研究扮演着关键角色。然而,传统量子化学计算面临双重困境:直接模拟受限于飞秒级超快过程的时间尺度,而机器学习方法则因缺乏高质量标准化数据集难以突破单分子或特定分子类的应用局限。更棘手的是,激发态模拟需要处理自旋多重度变化、非绝热耦合(NAC)奇点等复杂问题,这些特性使得开发通用机器学习模型面临巨大挑战。

为解决这些难题,莱比锡大学(Leipzig University)Wilhelm Ostwald物理与理论化学研究所联合德国埃尔朗根-纽伦堡大学(Friedrich-Alexander-Universit?t Erlangen-Nürnberg)的研究团队构建了SHNITSEL数据库。这项发表在《Scientific Data》的工作,通过整合多参考量子化学计算与自适应采样策略,创建了目前最全面的激发态性质数据库,包含9类代表性有机分子的41万余个数据点,其中73%采用完全活性空间自洽场(CASSCF)方法计算,为机器学习模型开发提供了前所未有的基准平台。

研究团队采用三项核心技术方法:1)多参考量子化学计算(CASSCF/MR-CISD/CASPT2)精确描述激发态交叉区域;2)自适应采样策略动态扩充高不确定性区域的训练数据;3)表面跳跃非绝热分子动力学(NAMD)生成时间分辨的轨迹数据。特别值得注意的是,数据集覆盖了从简单烯烃(如乙烯A01)到生物分子(酪氨酸R03)的多样化体系,包含单重态-三重态耦合(SOC)等关键相互作用数据。

【分子体系设计】
研究精选的9类分子形成梯度化研究体系:烯烃类(A01-A03)展示C=C键扭转与异构化特性;环状分子(R01-R03)呈现锥形交叉与氢原子漫游等复杂行为;亚甲基铵阳离子(I01)和碘代甲烷(H01)则分别代表超快内转换和强自旋轨道耦合体系。如图1所示,1,3-环己二烯(R02)的势能曲线清晰展示了光诱导开环反应中的关键锥形交叉点。

【数据生成策略】
研究采用多层级数据采集方案:静态数据通过二维网格扫描(3,731点/分子)、维格纳采样和锥形交叉优化获得;动态数据则来自表面跳跃轨迹(0.5 fs步长)。图3显示数据集包含29.7万动态数据点,其中A01的438条轨迹捕捉了C-H键解离(>200 pm)等关键事件。特别设计的质量控制标准(能量波动<0.1 eV)确保了数据可靠性。

【技术验证】
通过主成分分析(PCA)证实了数据集的构象多样性。图6展示的PCA投影中,2-丁烯(A03)的Z/E异构体通过末端氢原子距离(δ(HC=CH))实现清晰分离,而绿色簇对应成功异构化的轨迹。能量-力相关性分析显示,非绝热耦合强度(||NACij||)与能隙(Ei-Ej)呈预期反比关系,验证了量子化学计算的准确性。

这项研究建立的SHNITSEL数据库标志着激发态机器学习研究的重要突破。其创新性体现在三个方面:首先,首次系统整合了跨自旋多重度的激发态性质(含SOC),突破了传统数据集仅关注单重态的局限;其次,通过自适应采样策略有效覆盖了锥形交叉等高动态相关区域;最后,标准化的NETCDF格式与可视化平台(https://shnitsel.github.io/molecules)极大提升了数据可用性。该成果不仅为开发类似MACE-OFF的激发态基础模型奠定数据基础,更将推动光催化、光医学等领域的模拟研究向更大体系、更长时标拓展。正如作者强调的,这种"解耦电子结构计算与动力学模拟"的新范式,有望将激发态模拟的时空尺度扩展数个数量级。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号