《Environmental Science & Technology》:MechoA+: A Chemical Structure Profiler Raising the Bar for the Prediction of Mechanisms of Toxic Action for Chemical Safety Assessment
编辑推荐:
随着化学物质监管相关方日益倡导非动物测试方法,业界亟需适用范围广、可靠的计算机(in silico)工具,以同时预测环境危害与人体健康危害。在此背景下,研究人员开发了基于结构的计算机剖析器MechoA+,用于预测分子起始事件(MIE),可同时适用于哺乳动物毒理
随着化学物质监管相关方日益倡导非动物测试方法,业界亟需适用范围广、可靠的计算机(in silico)工具,以同时预测环境危害与人体健康危害。在此背景下,研究人员开发了基于结构的计算机剖析器MechoA+,用于预测分子起始事件(MIE),可同时适用于哺乳动物毒理学与生态毒理学。该模型通过合并与优化先前两个分类模型——MechoA与Sapounidou–Firman方案——构建而成。最终模型是一个由152个结构警报组成的新决策树,可将广泛物质划分为6个机制大类、27个亚类,并包含2条将物质排除在方案适用范围外的规则。对MechoA+方案预测结果的分析显示:在超过70,000种物质(涵盖化妆品、农药等)的数据集上,该方案比先前模型具有更高的有效预测百分比(训练集预测正值率92%),且结构、机制与分类学适用范围更广,可对80%的物质做出预测。由于MechoA+已在易获取的软件工具中实现,其广泛采用将促进更精准的危害评估、QSAR构建、读段延伸(read-across)与分组,强化监管决策,并支持早期研发中的更安全的化学品设计。
论文解读:MechoA+——提升化学物质安全评估中毒性作用机制预测水平的化学结构剖析器
一、研究背景与问题提出
在欧洲与北美,日常使用的化学物质达4万至6万种,但仅有小部分拥有足够数据支撑稳健的安全评价,尤其是急性毒性和暴露相关数据。为填补这一缺口,新途径方法(NAMs)包括计算机(in silico)方法快速发展,可在遵循动物实验3R原则(替代、减少、优化)的同时高效生成高质量数据。随着不良结局通路(AOP)概念的应用,监管机构越来越多地将NAMs作为提供机制证据、支撑化学品安全评估的手段。
然而,现有基于作用模式(MoA)的传统方案存在明显局限:适用域(AD)较窄,多聚焦于有限生态毒理学终点(如鱼类急性试验);通常不系统关联分子起始事件(MIE),而更多关联生物个体或种群的宏观不良效应,这些效应可能来自MIE下游不同关键事件,易造成混淆;哺乳动物毒理学领域的类似工作又多局限于特定终点。为突破上述瓶颈,第二代以MIE为核心的“机制方案”开始涌现。此前已有的MechoA方案与Sapounidou–Firman(SF)方案各有优势:MechoA有较广的机理与结构域及优先级决策树,SF方案则以KNIME工作流实现批量SMARTS匹配,涵盖更多杀生物剂、药物活性成分及部分有机金属。为融合二者长处并进一步精炼,研究人员将两者合并优化为统一的MechoA+方案,以MechoA架构为基底保留其决策树优先级逻辑,扩展适用域与预测能力。该论文发表于《Environmental Science & Technology》。
二、主要关键技术方法概述
研究人员通过文献与数据库(EFSA、ECHA、IARC、PubChem、DrugBank及OECD QSAR Toolbox等)系统梳理已有警报,融合MechoA与SF方案的结构警报,结合毒理学数据分析与蛋白直系同源数据库EggNOG v5.0.0、NCBI分类浏览器细化分类学适用域。警报以SMARTS字符串结合RDKit库及KREATiS自研C++代码实现,并在iSafeRat Desktop中部署。方案采用线性决策树(154条规则,含2条排除规则),按毒性潜力从高到低排序优先级。内部训练/验证集包含2,091种物质(化妆品、抗菌剂、农药、药物等),记录SMILES、CAS、PubChem CID及对应警报,并从“实验警报有效性”“预测警报有效性”两方面评估,引入“部分有效”等级。外部测试集采用Firman等人收集的76,120种物质(REACH预注册、药物、化妆品、农药等),对比MechoA+、MeCAo及SF方案的覆盖率与分类分布。化学空间采用MACCS指纹与t-SNE可视化比较结构覆盖。统计上以真阳性(TP)、假阳性(FP)及部分有效类别分析拟合优度。
三、研究结果
3.1 MechoA+分类体系
MechoA+保留MechoA的6个通用类并微调命名:第1类膜去稳定化(多为麻醉型物质);第2类酶解水解相关(酯、碳酸酯、磷酸酯等);第3类自发反应性(常非特异性与DNA/蛋白加合物形成相关);第4类前体活性(代谢产物关联毒性机制,4.1考虑解毒);第5类间接生物系统干扰(如活性氧ROS产生、质子梯度改变);第6类与内源性大分子特异性相互作用(常为药物或杀生物剂的MIE)。亚类由MechoA的23个、SF的25个扩展至27个,共152个MIE结构警报。原有MechoA与SF中对应相似MIE的警报尽可能合并为唯一警报,矛盾处以证据权重复查后调整。最终决策树含154条规则,2条为适用域排除规则。
3.2 跨分类群预测适用性
相比原方案,MechoA+明确了分类学覆盖。警报分两类:非特异性MIE(61个警报,19个亚类)适用于所有物种(除非代谢激活/解毒改变MIE),涵盖第1、3、5类(如基线麻醉、共价结合、氧化磷酸化解偶联);特异性MIE(91个警报,10个亚类)靶向特定生物分子(受体、离子通道等),分类学受限。研究人员开发基于EggNOG的快速跨物种搜索法,结合NCBI分类,排除无靶点的类群(如植物无GABA氯离子通道),同时纳入具同源靶点的新类群,精细化各警报的分类学适用域。
3.3 训练集与警报验证
训练集2,091种物质相较MechoA原集(491种)与SF(文献隐含)显著扩大,帮助细化规则限制与适用域。考虑到专家模型难以自助法交叉验证,研究人员对全训练集做手动内部验证。结合实验证据权重、预期警报与软件预测,划分实验警报有效性、预测警报有效性及综合整体有效性,引入“先验有效”“部分有效”“先验部分有效”“先验无效”等中级置信类别,降低二元划分的粗糙性。
3.4 模型拟合优度(灵敏度和特异度分析)
在2,091种内部验证物质中,1,383种为有效(TP,实验证据与预测MIE一致),119种为无效(FP)。其余589种因证据不确定标记为各类中间状态。综合“整体有效性”:TP 66%,先验有效16%,部分有效11%,先验部分有效0%,FP 6%,先验无效1%。在明确结局的1,502种中,TP率92%,FP率8%。不同警报置信度差异较大:支持物质多、结构受限的警报(如子类4.1、4.5、4.6、5.1、5.3及第6类)通常更可靠;结构模式宽松的警报不确定性更高。未来可用更多类似物增强TP支撑。
3.5 预测能力评估
由于完整外部机制毒理数据集稀缺,研究人员借助间接证据:iSafeRat急/慢性鱼、溞、藻毒性QSAR模型,按MechoA+子类分别建立与水溶解度等的线性回归,多数实验值落在预测值3倍因子内,部分子类(1.1、1.2、1.3、2.1、3.1、3.2、4.4、5.2等)已有统计验证QMRF。此外,Kramer等人的MoA数据集可作未来局部验证参考。这些独立证据支撑了主要机制类在鱼、溞、藻上的合理性。
3.6 决策树
MechoA+按“预期急性毒性潜力”排序:首条排除规则 > 第6类部分(6.1,6.2,6.3)> 第3类 > 其余第6类 > 第5类 > 第4类及2.2,2.3 > 第1类部分(1.3,1.2)> 第二条排除规则 > 2.1 > 1.1 > 适用域外(AD)。一旦对某分类群给出预测,后续低优先级警报不再运行,输出聚焦最相关MIE,避免信息过载。与SF不同,MechoA+通过单响应每分类群简化监管归类。未来可对比XGBoost、随机森林、TabPFN-2.5等机器学习更新版本。
3.7 结果多样性
同一物质可因分类群不同获得多组MIE预测,如某分子既是乙酰胆碱酯酶抑制剂(动物)又是硬亲电试剂(广布)。输出格式“MechoA xxY.Z”中xx为分类群代码,Y为机制类,Z为亚类,缺省分类群意为所有物种,“!”表示排除后续类群。当前决策树可能隐藏同物种多靶点互补MIE,未来或允许高级用户切换“全警报/优先级”模式。
3.8 覆盖范围
3.8.1 训练集覆盖与旧方案比较:MechoA+可分类训练集中95%(1,991/2,091)物质,剩余5%多为适用域外(4%触发首条排除规则:混合物、无机物或SMILES错误)或软件无法读取。旧MechoA与SF覆盖率更低,合并警报明显拓展域。在1,383个TP中,SF贡献了第3、4、6类不少新警报,MechoA贡献均衡,尤其第1、2、5类,MechoA+额外精炼进一步提升单方案外的新预测。
3.8.2 扩展清单覆盖:
3.8.2.1 域延展:测试集76,120种物质中,MechoA+完成60,684种(80%)预测;8%适用域外(规则1与150),3%为结构未正确检测(规则150),9%为SMILES兼容问题。
3.8.2.2 按用途覆盖:化妆品成分~90%最高,药物数据库(DrugBank与Pharma)约79%最低(含制剂与代谢物),整体各库均约≥79%,显示跨用途稳健性。未来可扩充有机制数据的药物子集以提升对非靶种MIE的预测。
3.9 分类结果分析
对比各方案每类预测数(多类别重复计一次):第1类膜去稳定化(麻醉)最多——基线毒性普遍存在;第2类酶解水解预测数较SF增、较MechoA略减,源于警报151对酯/磷酸酯/碳酸酯/氨基甲酸酯的细化;第3类自发反应性较两旧方案均增多,吸纳SF的Enoch系警报;第4类代谢第一步约占1/4预测,显示代谢信息重要性;第5类间接系统干扰第三多,受益于5.2等新限制与新增警报;第6类特异性大分子互作较MechoA略减、较SF翻倍,因MechoA中原先过于宽泛的保守警报被修正。分类学适用细化尤见于第6类。未来拟增加药物特化机制与潜在内分泌活性物质(EAS)规则。
3.10 结构覆盖改进
基于MACCS指纹的t-SNE二维化学空间图显示:MechoA+预测(绿)区域明显大于未预测(红),较MechoA与SF更宽地囊括日常(生态)毒理学家接触的化学结构,结构、机制与分类学适用域综合优于既有MIE模型。
3.11 MechoA+应用
MechoA+以“机制轮”可视化与简练文本输出,自动化友好,MIE结果可对接AOP,统合毒理与生态毒理视角。作为剖析器,可支撑减少/优化/替代动物测试,辅助读段延伸(符合ECHA RAAF框架元素2.2)与分组论证。已实现于iSafeRat Desktop内部版及OECD QSAR Toolbox插件,支持类似物搜索,在线API在开发中。早期研发中可用于更安全的设计、合规预判与后期返工削减。
该剖析器也可作为机制QSAR基石,已有按MechoA+分类而非单纯结构建立的定量机制-活性关系(QMARs)用于鱼、溞、藻急/慢性生态毒理模型,符合OECD第五原则(机制解释)。MechoA+本身不提供定量危害值,不同终点需结合log KOW或膜-水分配KMW、水溶解度、毒代动力学(ADME)、自氧化或透皮性等。对于致癌、发育生殖、重复剂量等尚需深化,内分泌模态剖析器正在开发并将集成。
总体而言,MechoA+在同一框架下实现了比现有方案更宽机制、结构与分类学域覆盖,可跨多物种预测MIE,输出结构化可解释结果,兼顾高通量筛选与机制分析,适用于监管与研发。
四、讨论与结论翻译总结
研究人员通过合并与精炼MechoA及Sapounidou–Firman方案,构建了决策树型结构警报剖析器MechoA+,含152个MIE警报与2条适用域排除规则,将物质划为6类27亚类。在2,091种内部训练物质上达到92%预测正值率(TP),在76,120种外部测试物质中覆盖80%。相比前身方案,MechoA+扩展了结构、机制与分类学适用域,通过EggNOG/NCBI细化特异性MIE的分类学范围,并以优先级决策树输出最简相关MIE,兼顾解释性与监管友好性。工具已嵌入iSafeRat Desktop与OECD QSAR Toolbox,可支撑更精准的危害评估、QSAR/QMAR构建、读段延伸与早期安全设计。未来可通过更大验证集、机器学习对照及内分泌模态补充进一步增强。该工作代表MIE导向计算机毒理剖析器的重要进展,推动非动物测试范式下的化学品安全评估。