量子自然语言处理在金属有机框架性能导向逆向设计中的应用研究

《npj Computational Materials》:Property-guided inverse design of metal-organic frameworks using quantum natural language processing

【字体: 时间:2025年10月30日 来源:npj Computational Materials 11.9

编辑推荐:

  本刊推荐:研究人员针对金属有机框架(MOF)逆向设计难题,创新性地引入量子自然语言处理(QNLP)技术。研究团队通过构建包含3种拓扑结构、10种金属节点和15种有机配体的450个假设MOF数据集,系统比较了词袋模型(BoW)、DisCoCat和序列模型等QNLP方法的性能。结果表明,基于IBM Qiskit经典模拟器的BoW模型在孔隙体积和CO2亨利常数分类任务中分别达到88.6%和78.0%的验证准确率,多分类模型平均测试准确率分别达92%和80%。该研究为量子计算在材料设计领域的应用开辟了新途径。

  
在材料科学领域,金属有机框架(MOF)因其可调节的孔结构和表面化学性质,在气体储存、分离和催化等领域展现出巨大应用潜力。然而,MOF的逆向设计——即根据目标性能筛选合适的拓扑结构和构建单元——面临着组合爆炸的挑战。传统的计算方法在处理庞大的MOF搜索空间时往往力不从心,而新兴的量子计算技术为这一难题提供了新的解决途径。
量子计算利用量子比特(qubit)的叠加和纠缠特性,理论上可以高效处理经典计算机难以解决的高维问题。特别是在当前嘈杂中型量子(NISQ)时代,量子机器学习(QML)算法已成为传统机器学习方法的有力补充。然而,先前的研究多集中于简单的周期体系,如过渡金属二硫属化合物(TMDs)和钙钛矿结构,对于MOF等复杂大分子体系的量子化处理仍存在挑战。
在这项发表于《npj Computational Materials》的研究中,韩国科学技术院(KAIST)的Shinyoung Kang和Jihan Kim团队开创性地将量子自然语言处理(QNLP)应用于MOF的性能导向逆向设计。研究团队构建了包含450个假设MOF结构的数据集,这些结构由3种拓扑(pcu、kag、lcy)、10种金属节点和15种有机配体组合而成。目标性能选取了代表物理性质的孔隙体积和反映化学性质的CO2亨利常数,并将数据集均匀分为低、中低、中高和高四个类别。
关键技术方法包括:1)使用PORMAKE软件生成MOF结构并利用BIOVIA Materials Studio进行优化;2)采用Zeo++计算孔隙体积,通过RASPA软件包进行蒙特卡洛模拟计算CO2亨利常数;3)利用lambeq库将MOF文本数据转换为量子电路;4)基于IQP(瞬时量子多项式)ansatz构建量子电路,使用Hadamard门、Rx(θ)和Rz(θ)旋转门进行操作;5)采用同步扰动随机逼近(SPSA)优化方法进行参数训练。
QNLP模型比较研究
研究人员系统比较了四种QNLP模型:词袋模型(BoW)、DisCoCat(分布组合范畴)模型以及两种基于序列的模型(单词序列带 Cups 和单词序列带 Stairs)。结果表明,BoW模型在孔隙体积和CO2亨利常数数据集上的验证准确率分别达到88.6%和78.0%,显著优于其他模型。这种性能差异源于MOF结构的非序列依赖性——完成一个MOF结构的关键在于是否包含完整的拓扑和构建单元集合,而非其组装顺序。
多分类模型开发
针对量子电路测量的概率特性,研究团队开发了专门的多分类策略。通过将多分类数据集转化为二分类专用数据集(00-专用、01-专用、10-专用、11-专用),有效解决了后选择(post-selection)带来的统计限制问题。最终,孔隙体积数据集的四分类测试准确率分别达到92%、92%、86%和98%,CO2亨利常数数据集的准确率为86%、72%、78%和84%。
MOF逆向设计性能
研究团队构建了基于多模型的MOF生成框架,将经典MOF文本输入生成与QNLP分类器评估相结合。该框架在生成具有目标性能的MOF时表现出色,孔隙体积和CO2亨利常数的平均生成准确率分别达到97.75%和90%。特别值得注意的是,在测试集严格限制为训练过程中未见过的组合时,该框架仍保持优异性能,证明了其良好的泛化能力。
讨论与展望
本研究首次将QNLP应用于MOF材料的逆向设计,建立了量子计算与材料设计之间的概念桥梁。尽管当前研究仅限于简单的MOF结构,但作者强调了序列复杂性在周期性材料中的重要性。随着结构复杂度的增加,如多元MOF和共价有机框架(COF)中多个节点和边缘位点的同时存在,QNLP的张量积操作和固有概率输出优势将更加明显。
研究团队特别提出了单元信息容量(UCiC)的概念,指出当材料具有n个可调变量且第i个变量的多重性为mi时,UCiC = ∏i=1n mi。对于这类复杂多元体系,QNLP通过量子纠缠自然编码组件关系的能力将凸显其价值。
需要强调的是,本研究的主要目标并非证明量子计算在速度、可扩展性或准确性方面相对于经典机器学习的优势,而是在NISQ时代为建模大分子系统建立概念基础。随着量子硬件的持续发展,QNLP框架有望支持未来量子原生材料设计策略的开发。
这项研究为量子算法在材料信息学中的应用提供了有益探索,虽然仅涉及MOF搜索空间的很小部分,但为有效导航MOF广阔设计空间提供了新视角,架起了量子算法与材料设计之间的桥梁。所有生成的MOF结构已以晶体学信息框架(.cif)格式公开,可通过GitHub仓库(https://github.com/shinyoung3/MOF_QNLP)获取。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号