编辑推荐:
这篇综述聚焦于共形预测(CP)在化学信息学中的应用。详细介绍了 CP 方法,阐述其在定量构效关系(QSAR)建模、分子筛选等领域的应用,分析了优势与局限,探讨了新挑战,为相关研究提供了全面参考。
基于共形预测(CP)的机器学习在化学信息学中的应用现状与新挑战
在化学信息学的研究领域中,共形预测(Conformal Prediction,CP)作为一种强大的机器学习(Machine Learning,ML)框架,近年来备受关注。它能为预测结果提供经过校准的可靠性度量,在处理化学信息学中的复杂问题时展现出独特优势。
CP 方法介绍
CP 是一种无分布假设的 ML 框架,仅要求数据具有可交换性,就能以用户预先定义的概率给出包含真实标签的预测子集或区间。其核心概念是 “不一致性”(nonconformity),通过量化新预测与先前数据及其预测之间的差异来衡量。例如,在回归模型中,可使用绝对残差作为不一致性度量。计算实例的 p 值,可判断实例的异常程度,p 值越大,实例越符合多数情况,反之则越异常。
CP 预测会根据先前实例的情况生成不同大小的预测子集或区间。若先前实例的预测变量相似且标签相似,CP 预测的标签子集或区间会较窄;反之则会较宽。对于与训练集差异较大的实例,预测子集或区间也会较大。CP 预测具有有效性,在大样本情况下,其预测错误率不超过设定的显著性水平,但这依赖于数据的可交换性假设。
此外,CP 的预测效率也很关键,预测子集或区间越小,效率越高。在回归中,常用平均绝对预测区间宽度衡量效率;在分类中,平均预测子集大小、单标签预测比例等可用于评估效率。原始的 “完全” 或 “转导” CP 方法计算效率较低,因此出现了多种改进方法。如归纳 CP(Inductive CP,ICP),将训练集分为适当训练集、校准集和测试集,仅需训练模型一次,但会因校准集的使用而降低一定的预测效率;交叉 CP(Cross-CP,CCP)结合了交叉验证,虽计算成本增加,但能提高预测效率;聚合 CP(Aggregated CP,ACP)通过开发多个 ICP 模型并聚合结果提升效率,但计算成本更高。针对分类问题中 CP 可能出现的类别内有效性问题,Mondrian CP(MCP)对每个类别分别进行预测,可使用不同的显著性水平,有助于处理高度不平衡的分类问题。
CP 在 QSAR/QSPR 建模中的应用
QSAR/QSPR 旨在寻找化合物化学结构与生物或物理化学性质之间的数学关系。CP 在该领域的应用为预测增添了可靠性,能构建预测多种端点的模型,如生物活性、毒性、ADME 性质等。
- 生物活性预测:CP 在生物活性预测中应用广泛,包括对特定靶点和表型生物活性的建模。研究人员开发了多种模型,如基于蛋白质化学计量学(PCM)的模型预测 PARP 抑制作用,利用多组学数据和 CCP/RF 预测 pGI50等。这些模型不仅能进行活性预测,还通过 CP 的预测区间提供不确定性度量。部分研究聚焦于优化 CP 在生物活性预测中的应用,如探索不同 CP 类型、ML 算法和不一致性度量的组合,研究处理不平衡数据集和缺失数据的方法,以及尝试将 CP 与深度学习(Deep Learning,DL)结合等。
- 毒性预测:毒性预测是复杂且多样的任务,涉及多种毒性类型和不同的实验数据。CP 在毒性预测中的应用主要为分类模型,且多采用 Mondrian 方法。相关研究涵盖了从蛋白质靶点到体内毒性终点,再到细胞毒性等多个方面。例如,预测雌激素受体活性、肝脂肪变性毒性、线粒体毒性等。部分研究还探索了 DL 方法在毒性预测中的应用,如使用 MCCP 结合 DL 模型,以及比较不同分子描述符和 DL 模型在毒性预测中的性能等。
- ADME 预测:ADME 预测涉及药代动力学终点和相关物理化学性质。CP 在该领域的应用相对较少,主要为回归模型。研究人员开发了预测人体稳态分布容积、清除率、皮肤渗透速率、logD 和溶解度等的模型。这些模型使用不同的 ML 算法和不一致性度量,部分模型在预测性能上与传统方法相当,且能提供化合物特异性的预测区间。
CP 加速分子筛选
ML/CP 在加速分子筛选方面具有重要作用,可减少实验和计算成本。高通量筛选(High-Throughput Screening,HTS)和基于结构的虚拟筛选(Structure-Based Virtual Screening,SBVS)是药物发现早期的重要方法,但成本较高。CP 通过训练 ML 模型并利用其预测的有效性,可根据不同的显著性水平选择化合物进行测试,实现风险 - 收益策略。同时,MCP 能有效处理筛选集中常见的高度不平衡数据集。
在加速 HTS 方面,研究人员采用迭代对接和 CP 结合的方法,通过评估不同显著性水平下的预测结果,优化化合物选择策略。在加速 SBVS 方面,开发了迭代对接 - CP/ML 方法,可减少待对接分子数量,提高筛选效率。此外,DL/CP 方法也在不断发展,如结合化学结构和文本描述进行零样本学习,以及使用混合专家架构预测药物 - 靶点相互作用等。
化学信息学中 CP 的开源工具
化学信息学研究人员使用和开发了多种开源软件来应用 CP。这些工具可分为三类:一是标准统计建模软件中的开源模块或库,如 Python 中的 nonconformist、crepes、MAPIE、torchCP,R 中的 conformal、conformalInference 等;二是专门为化学信息学建模开发并使用 CP 的软件,如 CPSign、Flame、eMolTox、CPlogD 等;三是特定论文中开发的代码。其中,nonconformist 和 CPSign 在化学信息学 / CP 社区中应用较为广泛,分别因其通用性和针对性而受到青睐。
CP 在化学信息学中的优缺点及新挑战
CP 在化学信息学中具有诸多优势,与其他量化预测不确定性的方法相比,它简单且数学严谨,无分布假设,可应用于几乎任何类型的 ML 模型,且能保证预测区间覆盖真实标签的概率。然而,CP 也存在一些局限性,如计算成本较高,尽管比某些方法(如集成、自举、dropout 或贝叶斯方法)低,但在计算成本要求高的应用(如 DL)中仍可能受限。此外,预测效率在很大程度上依赖于不一致性度量的选择,目前缺乏理论指导选择最优度量。
CP 面临的最大挑战是在数据不满足可交换性假设时保证有效预测。在化学信息学中,由于化学空间巨大,实验数据常存在顺序性变化,可交换性假设往往难以满足。为应对这一挑战,研究人员提出了多种方法,如对抗鲁棒 CP、处理协变量转移和标签转移的方法、设计通用的非交换 CP 方案等。部分方法已在化学信息学中得到应用,如 CoDrug 方法。同时,也有研究证明了 ICP 在某些特定类型的非交换数据中的(近似)有效性。
自 2012 年 CP 首次在化学信息学中应用以来,已得到广泛认可。化学信息学家和统计学家的合作有助于 CP 在化学信息学中的进一步发展和应用。未来,处理非交换性数据的新 CP 方法以及 CP 在 DL 中的新应用,有望为化学信息学研究带来更多突破。