建立一种综合模型来预测化合物的致突变性,并结合特征重要性分析
《Journal of Chemical Information and Modeling》:Establishment of an Integrated Model for Predicting Compound Mutagenicity with a Feature Importance Analysis
【字体:
大
中
小
】
时间:2025年10月23日
来源:Journal of Chemical Information and Modeling 5.3
编辑推荐:
集成深度学习模型预测化学物质突变性及特征分析。采用MACCS指纹和Mordred描述符构建78个单模型,通过交叉验证优化参数,整合 pairwise 模型后最佳模型(MACCS-Mordred)测试集平衡精度0.885,精确度0.922。特征重要性分析揭示氮含结构、环状基团等是关键致突变因子,适用性域分析确认模型可靠性,活性悬崖分析发现误判可能来源。研究为化学安全评估提供高效AI工具。
评估化学化合物的致突变性对于确保其安全性以及降低潜在的环境和公共健康风险至关重要。然而,传统的致突变性评估方法,如阿姆斯测试,往往耗时费力,且在大规模筛选化合物方面存在局限。为了弥补这一缺陷,基于深度学习的预测模型为快速且经济有效的致突变性筛选提供了一种有前景的替代方案。本研究提出了一种整合的深度学习框架,该框架利用多种分子特征来预测化合物的致突变性。在总共使用的5866个化合物中,有5279个用于模型训练,其余587个用于模型评估。通过系统地结合13种类型的分子描述符和指纹,开发了78个整合模型。其中,MACCS-Mordred模型表现最佳,在测试数据集中实现了0.885的平衡准确率和0.922的精确度。此外,我们还进行了活性悬崖分析,以探讨可能的误判来源。适用域分析进一步验证了模型的稳健性,表明我们数据集中的大多数化合物位于可靠的预测空间内。值得注意的是,特征重要性分析揭示了致突变性化合物更可能包含含氮和环状结构,为与致突变风险相关的结构特征提供了见解。我们的结果支持AI驱动的筛选工具,用于优先考虑有害化合物并改进早期阶段的化学风险评估。这项工作为环境监测和监管决策提供了实际价值。
致突变性是化合物可能引发DNA序列突变的有害终点,这种能力使得化合物对生物体可能造成长期风险,包括在生殖细胞中引发可遗传的突变和在体细胞中导致癌症。全球范围内的化学相关组织和政策将致突变性评估作为确保化学化合物、药物候选物和消费品安全性的基本要求。在所有检测方法中,阿姆斯测试被视为致突变性的标准实验方法。该测试采用至少五种不同的细胞株进行致突变性评估,其中四种应为指定的细胞株(TA1535、TA1537(或TA97a或TA97)、TA98和TA100)。如果至少有一种细胞株的测试结果为阳性,则化合物会被认为是致突变性。这些要求显著提高了阿姆斯测试的可靠性和可重复性,使其成为注册新化合物和现有化合物前用于监管目的的广泛方法。
阿姆斯测试的累积成本和时间在每天新增约4000种化合物到注册表的情况下变得尤为关键。因此,这一趋势促使人们越来越关注计算机辅助的预测方法,因其具备快速、低成本的优势。目前应用最广泛的计算方法是定量结构-活性关系(QSAR)模型。在QSAR模型中,分子描述符用于表示化学物质的特性,而计算方法如机器学习算法则用于计算致突变性与分子描述符之间的复杂定量关系。例如,可以通过专家规则为基础的结构(即结构警报)和某些类型的分子片段来预测化合物的致突变性,或者通过分子描述符与致突变性之间的量化统计相关性来进行预测。近年来,大量分子描述符已被探索,各种商业QSAR模型(如CASE ultra和VEGA)已被建立并证明其有效性。此外,机器学习和深度学习在化学信息建模中的使用正在不断增加。这些研究显示,QSAR和化学信息模型的当前发展展示了通过高效和准确的预测能力减少评估所需成本的可能性。
深度神经网络(DNN)已成为在各种预测任务中广泛使用的方法,因其在处理大型和复杂数据集方面的卓越能力。特别是,它们在分析特征及其与致突变性的关系方面表现出色。例如,在一项涉及4053种化合物的比较研究中,深度学习模型在预测致突变性方面优于传统的机器学习算法。同样,应用消息传递神经网络,这是一种图神经网络的高级形式,也显示出在预测致突变性以及六种其他类型的毒性方面的优越性能。然而,大多数模型通常是基于单一类型的分子特征构建的。建议采用整合建模方法,即结合多种基于不同特征类型的模型的输出,以提高预测性能。基于此思路,整合模型有潜力实现更优的致突变性预测准确率。
本研究的目标是建立一个整合的DNN模型,以预测致突变性。化合物从三个数据库中收集,并随机划分为训练集和测试集,以建立和评估模型。通过工程化分子特征,建立了各种模型。每个模型通过调整超参数进行优化。随后,这些优化后的模型以成对方式结合,生成整合模型,并根据交叉验证的评分指标选择最佳整合模型。进行特征重要性分析以揭示分子描述符与致突变性之间的关系。此外,适用域(AD)被用于识别构建模型的可靠预测区域。我们相信,整合模型将在减少成本和加速致突变性评估方面具有实际应用价值。
在本研究中,我们收集了具有致突变性数据的化合物,并从公共库中获取。分子特征被生成并用于建立深度学习模型。模型通过调整超参数进行优化。随后,这些优化后的模型以成对方式结合,生成整合模型。最佳整合模型根据交叉验证的评分指标选择。进行特征重要性分析以揭示分子描述符与致突变性之间的关系。此外,适用域被用于识别构建模型的可靠预测区域。我们相信,整合模型将在减少成本和加速致突变性评估方面具有实际应用价值。
为了评估化合物的预测可靠性,我们采用了适用域分析,该分析基于训练集确定理论化学空间。可靠的预测仅在适用域内生成,而适用域外的预测则被认为是不可靠的。在本研究中,pyADA包被用于确定适用域。该包利用杠杆方法计算适用域边界,即每个特征的临界帽值(h*)和每个化合物的帽值。h*的计算方式为3(p + 1)/n,其中p是模型中的特征数量,n是训练集中的化合物数量。帽值高于h*的化合物表示与训练集相比具有较大的结构差异,因此被认为位于适用域外。此外,其他建立模型的适用域细节在表S4中进行了总结。这些“异常值”被适用域检测出来,表明我们的整合模型具有纠正这些误判的潜力。例如,在MACCS-适用域检测出的异常值中,三个化合物被MACCS模型误判,但在我们最终的整合模型中被正确预测,因为它们位于由Mordred描述符定义的适用域内。此外,所有由Mordred定义的适用域检测出的异常值都被我们的最终模型正确预测,表明它们在MACCS模型中的致突变性评估是可靠的。这些结果表明数据集在化学空间分布上具有较高的重叠,适用于适用域内的新化合物可以被可靠预测。
在本研究中,我们选择了氯代苯醌、5-硝基-2-丙氧基苯胺和对二苯[a,j]并四氢化吡喃-3,4-二醇-1,2-环氧物等化合物,以评估其致突变性。结果表明,这三种化合物被预测为致突变性,与其实验室测试结果一致。此外,这些化合物位于由MACCS和Mordred描述符定义的适用域内。这些发现表明,我们的整合模型可以应用于数据集之外的已知致突变性化合物,且在化合物位于适用域内时,其致突变性预测是可靠的。
通过分析特征重要性,我们能够识别出对化合物致突变性具有关键影响的特征。这些特征包括MACCS指纹和Mordred描述符。一个特征如果表现出较高的SHAP值,则被认为对致突变性具有更大的影响。此外,一个正的SHAP值可以解释为该特征对最终预测具有正向影响;反之,负的SHAP值则被视为负向贡献因素。此外,我们利用Exmol包探讨了已识别特征重要性对化合物致突变性的影响。该包基于Tanimoto相似性和指定的条件方程,生成与给定化合物具有不同致突变性的类似物。例如,通过将羟基(OH)替换为氟(FP-134)或添加含卤素和含氮结构(FP-84)可以改变分子的预测类别。这些修改来源于一个虚拟的局部化学子空间,其中化合物是基于讨论的化学物质生成的,但并不保证其稳定性和合成可行性,因此未包含在我们的数据集中。因此,这些虚拟类似物仅作为理论示例,以说明特征重要性如何指导假设生成,而不是最终预测。通过分析分子类似物,我们能够认识到细微的结构变化如何显著影响预测的致突变性,从而增强我们对不同化合物致突变潜力的理解。
特征重要性分析不仅突出了某些化学结构的致突变潜力,还揭示了它们对环境的影响。例如,一些属于含氮和环状结构组的硝基多环芳烃(N-PAHs)被美国环境保护署(EPA)列为优先污染物。芳香族结构的复杂性阻碍了其降解,而硝基结构则增强了其对颗粒物或土壤的吸附亲和力,这是由于其较低的辛醇-水分配系数和亨利定律系数。污染物的特性有助于其在环境中的持久性和普遍性,从而提高其致突变潜力。我们的结果表明,特征重要性分析可以进一步用于评估环境污染物并评估其相关风险。
本研究中,我们建立了一个整合的机器学习模型,用于预测有机化合物的致突变性,旨在减少传统方法如阿姆斯测试所带来的成本和时间。整合模型结合了基于MACCS指纹和Mordred描述符的预测,实现了0.882的准确率、0.885的平衡准确率、0.922的精确度、0.862的召回率和0.895的F1分数。我们的整合模型的误判部分归因于活性悬崖。特征分析表明,含有芳香环、硝基或脂肪族卤素等结构的化合物倾向于表现出致突变性,这些结构常见于已知或疑似环境污染物中。此外,适用域分析证实了在每个特征的临界帽值以下的化合物可以获得可靠的预测。总体而言,这些发现表明我们的模型为致突变性评估提供了一个可靠且可解释的工具,并可能有助于在环境监测和监管筛选中更早识别潜在有害化合物。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号