从科学理论到预测性人工智能模型的双重性:解释性AI在自然科学中的因果推理探索

【字体: 时间:2025年04月07日 来源:Cell Reports Physical Science 7.9

编辑推荐:

  本期推荐:德国波恩大学Jürgen Bajorath团队在《Cell Reports Physical Science》发表前瞻性观点,针对解释性人工智能(XAI)研究中模型解释(explanation)、解释(interpretation)与因果性(causality)概念混淆的问题,提出基于科学理论的预测模型双重性框架。研究通过药物发现中双靶点化合物(DT-CPDs)的机器学习(ML)案例,阐明科学理论依据对模型可解释性和因果推理的关键作用,为跨学科研究提供方法论指导。

  

在人工智能技术席卷各学科领域的今天,机器学习模型的黑箱特性始终是制约其科学应用的关键瓶颈。尤其在生命科学和药物研发领域,当研究者试图用深度神经网络预测蛋白质-配体结合活性或设计多靶点药物时,常常陷入两难困境:模型预测结果看似准确,却无法解释其内在机制;而强行解释又可能落入"聪明汉斯马"(Clever Hans)的陷阱——将模型记忆训练数据特征的伪相关误认为真实生物学规律。这种解释性与可靠性之间的鸿沟,使得人工智能在自然科学中的应用既充满希望又危机四伏。

德国波恩大学Jürgen Bajorath团队在《Cell Reports Physical Science》发表的前瞻性研究,系统梳理了从模型解释到因果推理的科学路径。研究指出,当前XAI领域存在三个关键概念混淆:解释(explanation)作为从模型提取计算信息的纯技术过程,与解释(interpretation)这一将技术信息转化为人类可理解语言的能力常被混为一谈;而二者与因果性(causality)的关系更少被明确区分。这种概念混乱导致研究者可能过度解读模型预测,例如将图神经网络(GNNs)对蛋白质-配体亲和力的预测错误归因于模型"理解"了相互作用机制,而实际可能只是记忆了配体结构特征。

为建立严谨的方法论框架,研究团队引入科学理论中的"可理解性"概念:一个科学现象可被理解的前提是存在可被定性把握的智能理论。将此标准应用于机器学习,意味着模型若要在自然科学中产生可信预测,必须基于领域相关的科学理论依据。基于此,作者提出AI模型的"双重性"(duality)理论:根据是否具备明确科学理论依据,可解释模型可分为两类——有理论依据的模型其预测可被解释并导向因果推理和实验验证;而无理论依据的模型即便预测准确,其解释可能无法导向因果结论。

关键技术方法包括:1)采用特征归因算法(如SHAP)解释双靶点化合物(DT-CPDs)预测模型;2)开发分子锚定(MolAnchor)方法识别决定预测的关键亚结构;3)应用反事实(CFs)分析验证解释的稳健性;4)通过交叉配对预测验证特征特异性;5)结合170个靶点对的化合物活性数据集进行系统性验证。

EXPLAINABILITY VS. INTERPRETABILITY

研究强调解释与解释的本质差异:前者是XAI的技术过程,后者是人类智能的认知转化。以MAOB-A2AR双靶点化合物为例,特征归因可识别咖啡因亚结构是预测决定因素(解释),而化学家能理解该亚结构如何同时结合两个靶点(解释)。研究同时区分两类不确定性:数据固有的偶然性(aleatoric)与模型本身的认知不确定性(epistemic)。

INTERPRETABILITY VS. CAUSALITY

通过分析DT-CPDs案例,证明统计相关(如亚结构与双靶活性)不等于因果关系。只有当解释特征经实验证实直接导致生物效应(如咖啡因亚结构确证介导双靶结合),才完成从解释到因果的跨越。这一过程依赖科学理论指导假设设计,如多靶药效团理论支撑了亚结构的功能假设。

CAUSALITY VS. CAUSABILITY

提出"因果能力"(causability)新概念,作为连接AI解释与人类因果推理的接口。在MAOB-ACHE案例中,将特征映射到香豆素亚结构的可视化技术,实现了从数学解释到化学家可操作的因果假设的转化。

EXEMPLARY APPLICATION

170个靶点对的ML实验证明:双靶点化合物确实存在靶点对特异性的区别亚结构(native预测成功率>80%),但这些特征不能跨靶点对通用(cross-pair预测失败)。这既证实科学理论指导的假设(特异性亚结构存在),又否定过度泛化的假设(通用多靶特征)。

CAVEATS ALONG THE WAY

以GNNs预测蛋白质-配体亲和力为例,揭示"聪明汉斯马"陷阱:模型实际通过记忆配体特征而非学习相互作用机制进行预测,这通过分析图中配体内部边的高贡献度得以暴露。

SPECTRUM OF XAI

比较SHAP、反事实、分子锚定等方法,指出解释工具的ML依赖性可能引入二次黑箱。建议采用多方法交叉验证,如结合SHAP与分子锚定提高化学预测的可信度。

DUALITY OF AI MODELS

最终建立的双重性理论框架将模型分为:1)基于科学理论的可解释模型(如DT-CPDs预测),其解释可导向因果假设和实验;2)无理论依据的模型(如某些TLMs应用),其预测可能有用但难以因果解释。前者适合假设驱动的探索,后者可用于数据驱动的发现。

这项研究的意义在于为AI在自然科学中的应用建立了严谨的方法论标准。通过明确解释、解释与因果的界限,提出模型双重性理论,既防止对复杂模型的过度解读,又为真正有价值的AI发现开辟路径。特别是强调科学理论在模型构建中的指导作用,这对药物设计等需要因果解释的领域尤为重要。研究同时指出,缺乏理论依据的预测(如某些序列到药物的TLMs)并非无效,但需明确其相关性与因果性的区别。这种辩证观点为AI在生命科学中的合理应用提供了关键理论支撑,也将促进XAI工具在跨学科研究中的规范使用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号