编辑推荐:
为解决可解释人工智能(XAI)工具解释缺乏可解释性和科学依据、对非技术用户不友好等问题,研究人员开展 “XpertAI 框架用于解析化学结构 - 性质关系” 的研究。结果显示 XpertAI 能生成精准解释,有助于挖掘化学知识,推动化学研究。
在化学的奇妙世界里,分子就像一个个神秘的小精灵,它们的结构决定了各自独特的 “性格”—— 性质。长久以来,科学家们都渴望揭开分子结构与性质之间的神秘面纱,因为这能帮助人们精准地设计分子,创造出具有特定功能的材料、药物等。
随着科技的发展,机器学习(ML)成为了探索这一关系的有力助手。它能通过大量数据构建模型,预测分子性质。然而,这些模型就像一个个 “黑匣子”,虽然预测结果准确,却无法清晰地告诉人们为什么会这样预测。这让实验化学家们对这些模型的预测结果心存疑虑,就像面对一份没有解题过程的答案,总觉得不踏实。
可解释人工智能(XAI)的出现,本是为了打破这个 “黑匣子”,解释模型预测的依据。但它也有自己的 “小脾气”:一方面,它主要是为技术专家设计的,对于非专业人士来说,使用门槛较高;另一方面,它缺乏灵活性,难以针对特定问题给出全面、深入的解释。
在这样的背景下,来自洛桑联邦理工学院(Ecole Polytechnique Fédérale de Lausanne,EPFL)实验室的研究人员,决心攻克这一难题。他们开展了一项旨在利用 XAI 和大语言模型(LLMs)揭示化学结构 - 性质关系的研究。最终,他们成功开发出 XpertAI 框架,这一成果发表在了《Communications Chemistry》上。
XpertAI 框架的出现意义重大。它就像一座桥梁,连接了 “黑匣子” 模型、XAI 工具和科学文献。通过这个框架,研究人员能够从原始化学数据中提取出结构 - 性质关系,并以通俗易懂的自然语言进行解释,大大增强了模型的可解释性和可信度,为化学研究开辟了新的道路。
在研究过程中,研究人员主要运用了以下关键技术方法:
- 机器学习模型训练:使用初始原始数据训练梯度提升决策树(以 XGBoost 框架为基础,借助 Scikit - learn API 完成回归和分类任务),将其作为映射输入和输出的替代模型。
- 特征分析:运用 SHAP(SHapley Additive exPlanations)和 LIME(Local Interpretable Model - Agnostic Explanations)这两种常用的 XAI 方法,计算平均 SHAP 值和 Z 分数来提取与分子性质相关的关键特征。
- 大语言模型与文献整合:借助大语言模型(如 GPT - 4o),利用检索增强生成(RAG)方法,结合从文献中获取的科学证据,生成自然语言解释。通过 LangChain python 包和 Chroma 向量数据库检索相关文献,再由 GPT - 4o 生成解释内容,并使用链状思维提示(chain - of - thought prompting)方法优化解释的可解释性。
下面来看具体的研究结果:
- 金属 - 有机框架(MOFs)的结构 - 性质关系:
- 开放金属位点:研究人员从 CoRE MOF 2019 数据库中选取了 4000 个 MOF 样本,经处理后得到 3734 个结构。通过 XpertAI 分析发现,金属分数、固体密度和平均阳离子半径等因素与开放金属位点的存在相关,这与已有研究结果相符。
- 孔限直径:使用同一 MOF 数据集,以孔限直径为标签进行研究。XpertAI 指出,影响孔限直径的关键因素包括每个原子的体积、对称函数 G 和导带中的未占能级等,并对其影响机制进行了合理假设和解释。
- 小分子毒性:从 Tox21 数据库中采样并验证了 1478 个分子,利用 MACCS 描述符对分子进行特征化处理。XpertAI 确定了与分子毒性相关的特征,如与三个氧原子键合的杂原子、叔胺和碳 - 氧单键等,并对其影响毒性的原因进行了详细解释,与相关研究结论一致。
- 小分子溶解性:以 AqSolDB 数据集中的 9982 个分子为样本,用 MACCS 描述符转换分子。XpertAI 解释了分子结构与溶解性的关系,指出如芳香 / 非芳香边界的原子、相互键合的两个杂原子等特征与溶解性呈负相关,并说明了影响机制。
- 化合物可燃性:使用 Yuan 等人的数据集(包含 79 种有机化合物)进行研究。XpertAI 分析得出结构信息内容指数(零阶邻域对称性)、信息内容指数(有序邻域对称性)和偶极矩等特征在决定有机分子的上可燃极限(UFL)中起重要作用,但由于数据集和文献的限制,该解释可能存在不准确之处。
研究结论和讨论部分再次强调了 XpertAI 的重要意义。XpertAI 成功整合了 XAI 和 LLMs 的优势,能够生成可解释、针对性强且基于科学文献的自然语言解释,在挖掘化学结构 - 性质关系方面表现出色。不过,XpertAI 的性能也受到一些因素的限制,如替代模型的拟合效果、特征描述的准确性以及 RAG 模型的性能等。
未来,研究人员计划进一步优化 XpertAI。例如,集成自动化超参数优化,引入更多的 ML 模型并支持用户自定义模型;探索如何更好地选择特征描述,提高解释的准确性;尝试将开源 LLMs 更有效地整合到 XpertAI 中,降低使用成本,提高其可及性。总之,XpertAI 虽然目前存在一些不足,但它为化学研究带来了新的思路和方法,有望成为推动化学领域发展的强大工具,助力科学家们在分子世界的探索中取得更多突破。