迈向可互操作的钙钛矿描述:如何追踪300种钙钛矿离子
《Nature Communications》:Towards an interoperable perovskite description or how to keep track of 300 perovskite ions
【字体:
大
中
小
】
时间:2025年10月01日
来源:Nature Communications 15.7
编辑推荐:
为解决钙钛矿材料领域因成分命名混乱、数据格式不统一导致的数据挖掘与机器学习应用困难,研究人员开展了关于钙钛矿成分标准化描述的研究。他们提出了一套基于JSON Schema的指南,旨在通过标准化离子识别(如SMILES、IUPAC名称)和成分报告格式,实现钙钛矿数据的机器可读与互操作。该研究还构建了包含近300种A位离子的数据库,并开发了自动化工具,为钙钛矿研究的高通量数据分析和机器学习模型构建奠定了坚实基础。
在材料科学领域,钙钛矿(Perovskite)无疑是一颗耀眼的明星。这种具有ABX3结构的材料,因其优异的光电性能,在太阳能电池、发光二极管(LED)和探测器等领域展现出巨大的应用潜力。其成功的关键之一在于其巨大的成分灵活性——通过替换A位、B位和X位的离子,可以像调色盘一样精确调控材料的带隙、稳定性和载流子迁移率等关键性质。
然而,这种“调色盘”般的自由也带来了一个令人头疼的“巴别塔”困境。随着研究的深入,科学家们已经鉴定出超过300种可用于构建钙钛矿的A位阳离子。为了在论文中简洁地表达复杂的混合成分,研究人员发明了五花八门的缩写和书写格式。例如,一个常见的钙钛矿成分Cs0.05FA0.81MA0.14PbBr0.45I2.55(其中MA和FA分别代表甲铵和甲脒),在文献中可能被写成十几种不同的形式。有的离子顺序混乱,有的添加了不必要的括号,有的甚至错误地暗示了两种不同相的混合。对于经验丰富的研究者来说,这或许只是一个小小的阅读障碍,但对于刚入门的新手和日益重要的“读者”——计算机程序而言,这却是一场灾难。
在数据驱动的时代,这种混乱严重阻碍了数据挖掘和机器学习在钙钛矿研究中的应用。如果连最基本的“这是什么材料”都无法被机器准确理解,那么从海量文献中自动提取知识、构建预测模型、发现“隐藏”的构效关系便无从谈起。这显然违背了FAIR(可发现、可访问、可互操作、可重用)数据原则。
为了打破这一僵局,由Ayman Maqsood、Hampus N?sstr?m、Chen Chen、T. Jesper Jacobsson等来自德国、中国、瑞典和美国多所研究机构的科学家组成的团队,在《Nature Communications》上发表了一项重要研究。他们提出了一套全面的指南和标准化的数据格式,旨在为钙钛矿研究建立一种“通用语言”,让钙钛矿的描述变得既对人类友好,又对机器可读。
为了构建一个标准化的钙钛矿描述框架,研究人员首先从钙钛矿数据库(Perovskite Database)、二维钙钛矿数据库(2D-perovskite database)以及Great Cell Solar公司的产品目录中,系统性地识别和整理了所有已知的钙钛矿离子,最终汇集了近300种A位阳离子。对于这些离子,他们从PubChem等公共化学数据库中提取了分子式、SMILES(简化分子线性输入规范)字符串、IUPAC(国际纯粹与应用化学联合会)系统命名以及CAS(化学文摘社)编号等关键信息,以消除离子识别的歧义。基于这些数据,他们设计并实现了一个基于JSON Schema的数据模型,该模型能够结构化地存储钙钛矿的成分、维度、带隙、添加剂和杂质等信息。为了促进该标准的应用,团队开发了配套的软件工具,包括集成在NOMAD平台上的图形用户界面(GUI)和一套Python实用程序,用于自动生成和验证符合该Schema的JSON文件。此外,他们还利用RDKit软件包对A位阳离子进行了构象生成和能量最小化计算,以丰富数据库的实用性。
研究团队首先明确了准确描述钙钛矿成分的核心要素:必须精确识别占据A位、B位和X位的离子,并明确其化学计量系数。为了确保一致性,他们建议遵循IUPAC推荐,按字母顺序排列各位置的离子,并列出相应的化学计量系数。这种结构化的方法虽然需要六个独立的条目,但它是实现数据一致性的基础,为后续的自动化归一化处理和补充数据检索铺平了道路。
钙钛矿成分混乱的另一个根源在于离子本身的识别。对于MA、FA等分子离子,其缩写往往不直观且存在歧义。为了解决这个问题,研究人员提出,在报告钙钛矿成分时,应为每个离子明确包含以下信息:用于计算表示的SMILES字符串、用于无歧义命名的IUPAC系统名称,以及用于交叉引用的CAS编号。此外,还应包括常用名称和分子式以提高人类可读性。这种全面的方法确保了钙钛矿成分的清晰和独特描述,并使得离子能够被化学计算和可视化工具直接处理。
为了支持上述标准,研究团队构建了混合钙钛矿离子数据库(Hybrid Perovskite Ions Database),并将其托管在NOMAD平台上。该数据库不仅提供了所有已识别离子的关键描述符,还包含了利用RDKit计算得到的离子构象,增强了数据集的实用性。该数据库为实验科学家寻找新离子、追踪母体化合物以及选择合适的化学前驱体提供了宝贵的资源。同时,它也为计算材料科学家构建新体系进行从头算(ab initio)计算或集成到新兴的机器学习势模型中提供了便利。
研究人员指出,钙钛矿薄膜的成分通常被假定为合成过程中前驱体的化学计量比,但这会引入不确定性。因此,他们建议在描述中应包含报告成分的依据,例如是源自前驱体比例、实验测量(如光谱或衍射数据)还是文献值。此外,钙钛矿样品的物理性质(如单晶、多晶薄膜、胶体溶液)和维度(0D、1D、2D、3D)也应被明确指定,因为这些因素会直接影响测量结果和器件性能。
添加剂和杂质对钙钛矿性能有显著影响,但它们在材料中的存在形式往往不明确。研究团队建议将添加剂定义为任何有意引入钙钛矿薄膜但未整合到钙钛矿晶体结构中的物质。对于掺杂剂,则被视为一种添加剂。而杂质则是无意中存在的物质。为了改进钙钛矿的描述质量,他们建议在描述中包含添加剂和杂质的列表,并为其指定独立的、可互操作的数据模式,以避免大型数据模式的复杂性。
JSON Schema for Perovskite Compositions
为了将上述所有想法整合到一个结构化的、可互操作的格式中,研究团队提出了使用JSON文件。JSON是一种广泛采用的开放标准,与现代编程语言兼容,同时保持人类可读性。他们开发了一个详细的JSON Schema用于验证,并提供了相应的软件工具。这些工具包括集成在NOMAD中的图形用户界面编辑器,以及一套Python实用程序,用于根据模式定义创建成分文件。生成的JSON文件可以包含在补充信息中,或存入在线存储库,从而实现程序化访问,简化结果复现以及大规模数据聚合和机器学习应用。
该研究针对钙钛矿研究领域因成分描述混乱而导致的互操作性差和数据挖掘困难等问题,提出了一套全面的解决方案。通过制定基于JSON Schema的标准化指南,并构建包含近300种A位离子的数据库,研究团队成功地为钙钛矿材料建立了一种“通用语言”。这种语言不仅消除了成分识别的歧义,还通过SMILES字符串和IUPAC名称等标准化学标识符,实现了数据的机器可读性。
该研究的重要意义在于,它为钙钛矿研究的高通量数据分析和机器学习应用奠定了坚实的基础。通过采用这种结构化的方法,研究人员可以更轻松地共享、比较和复用数据,从而加速新材料的发现和优化。此外,该框架的模块化设计使其具有良好的可扩展性,未来可以轻松集成更多描述符,以更全面地描述钙钛矿样品和器件。
为了促进该标准的广泛采用,研究团队不仅提供了详细的指南,还开发了用户友好的图形界面和自动化工具,极大地降低了使用门槛。他们呼吁期刊编辑和出版商在同行评审过程中鼓励或要求作者使用这种结构化的数据报告方式,从而共同推动钙钛矿研究向更透明、可重复和高效的方向发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号