MechoA+：提升化学物质安全评估中毒性作用机制预测水平的化学结构剖析器

《Environmental Science & Technology》：MechoA+: A Chemical Structure Profiler Raising the Bar for the Prediction of Mechanisms of Toxic Action for Chemical Safety Assessment

【字体：大中小】 时间：2026年06月09日 来源：Environmental Science & Technology 11.3

编辑推荐：

　　随着化学物质监管相关方日益倡导非动物测试方法，业界亟需适用范围广、可靠的计算机（in silico）工具，以同时预测环境危害与人体健康危害。在此背景下，研究人员开发了基于结构的计算机剖析器MechoA+，用于预测分子起始事件（MIE），可同时适用于哺乳动物毒理

随着化学物质监管相关方日益倡导非动物测试方法，业界亟需适用范围广、可靠的计算机（in silico）工具，以同时预测环境危害与人体健康危害。在此背景下，研究人员开发了基于结构的计算机剖析器MechoA+，用于预测分子起始事件（MIE），可同时适用于哺乳动物毒理学与生态毒理学。该模型通过合并与优化先前两个分类模型——MechoA与Sapounidou–Firman方案——构建而成。最终模型是一个由152个结构警报组成的新决策树，可将广泛物质划分为6个机制大类、27个亚类，并包含2条将物质排除在方案适用范围外的规则。对MechoA+方案预测结果的分析显示：在超过70,000种物质（涵盖化妆品、农药等）的数据集上，该方案比先前模型具有更高的有效预测百分比（训练集预测正值率92%），且结构、机制与分类学适用范围更广，可对80%的物质做出预测。由于MechoA+已在易获取的软件工具中实现，其广泛采用将促进更精准的危害评估、QSAR构建、读段延伸（read-across）与分组，强化监管决策，并支持早期研发中的更安全的化学品设计。

论文解读：MechoA+——提升化学物质安全评估中毒性作用机制预测水平的化学结构剖析器

一、研究背景与问题提出

在欧洲与北美，日常使用的化学物质达4万至6万种，但仅有小部分拥有足够数据支撑稳健的安全评价，尤其是急性毒性和暴露相关数据。为填补这一缺口，新途径方法（NAMs）包括计算机（in silico）方法快速发展，可在遵循动物实验3R原则（替代、减少、优化）的同时高效生成高质量数据。随着不良结局通路（AOP）概念的应用，监管机构越来越多地将NAMs作为提供机制证据、支撑化学品安全评估的手段。

然而，现有基于作用模式（MoA）的传统方案存在明显局限：适用域（AD）较窄，多聚焦于有限生态毒理学终点（如鱼类急性试验）；通常不系统关联分子起始事件（MIE），而更多关联生物个体或种群的宏观不良效应，这些效应可能来自MIE下游不同关键事件，易造成混淆；哺乳动物毒理学领域的类似工作又多局限于特定终点。为突破上述瓶颈，第二代以MIE为核心的“机制方案”开始涌现。此前已有的MechoA方案与Sapounidou–Firman（SF）方案各有优势：MechoA有较广的机理与结构域及优先级决策树，SF方案则以KNIME工作流实现批量SMARTS匹配，涵盖更多杀生物剂、药物活性成分及部分有机金属。为融合二者长处并进一步精炼，研究人员将两者合并优化为统一的MechoA+方案，以MechoA架构为基底保留其决策树优先级逻辑，扩展适用域与预测能力。该论文发表于《Environmental Science & Technology》。

二、主要关键技术方法概述

研究人员通过文献与数据库（EFSA、ECHA、IARC、PubChem、DrugBank及OECD QSAR Toolbox等）系统梳理已有警报，融合MechoA与SF方案的结构警报，结合毒理学数据分析与蛋白直系同源数据库EggNOG v5.0.0、NCBI分类浏览器细化分类学适用域。警报以SMARTS字符串结合RDKit库及KREATiS自研C++代码实现，并在iSafeRat Desktop中部署。方案采用线性决策树（154条规则，含2条排除规则），按毒性潜力从高到低排序优先级。内部训练/验证集包含2,091种物质（化妆品、抗菌剂、农药、药物等），记录SMILES、CAS、PubChem CID及对应警报，并从“实验警报有效性”“预测警报有效性”两方面评估，引入“部分有效”等级。外部测试集采用Firman等人收集的76,120种物质（REACH预注册、药物、化妆品、农药等），对比MechoA+、MeCAo及SF方案的覆盖率与分类分布。化学空间采用MACCS指纹与t-SNE可视化比较结构覆盖。统计上以真阳性（TP）、假阳性（FP）及部分有效类别分析拟合优度。

三、研究结果

3.1 MechoA+分类体系

MechoA+保留MechoA的6个通用类并微调命名：第1类膜去稳定化（多为麻醉型物质）；第2类酶解水解相关（酯、碳酸酯、磷酸酯等）；第3类自发反应性（常非特异性与DNA/蛋白加合物形成相关）；第4类前体活性（代谢产物关联毒性机制，4.1考虑解毒）；第5类间接生物系统干扰（如活性氧ROS产生、质子梯度改变）；第6类与内源性大分子特异性相互作用（常为药物或杀生物剂的MIE）。亚类由MechoA的23个、SF的25个扩展至27个，共152个MIE结构警报。原有MechoA与SF中对应相似MIE的警报尽可能合并为唯一警报，矛盾处以证据权重复查后调整。最终决策树含154条规则，2条为适用域排除规则。

3.2 跨分类群预测适用性

相比原方案，MechoA+明确了分类学覆盖。警报分两类：非特异性MIE（61个警报，19个亚类）适用于所有物种（除非代谢激活/解毒改变MIE），涵盖第1、3、5类（如基线麻醉、共价结合、氧化磷酸化解偶联）；特异性MIE（91个警报，10个亚类）靶向特定生物分子（受体、离子通道等），分类学受限。研究人员开发基于EggNOG的快速跨物种搜索法，结合NCBI分类，排除无靶点的类群（如植物无GABA氯离子通道），同时纳入具同源靶点的新类群，精细化各警报的分类学适用域。

3.3 训练集与警报验证

训练集2,091种物质相较MechoA原集（491种）与SF（文献隐含）显著扩大，帮助细化规则限制与适用域。考虑到专家模型难以自助法交叉验证，研究人员对全训练集做手动内部验证。结合实验证据权重、预期警报与软件预测，划分实验警报有效性、预测警报有效性及综合整体有效性，引入“先验有效”“部分有效”“先验部分有效”“先验无效”等中级置信类别，降低二元划分的粗糙性。

3.4 模型拟合优度（灵敏度和特异度分析）

在2,091种内部验证物质中，1,383种为有效（TP，实验证据与预测MIE一致），119种为无效（FP）。其余589种因证据不确定标记为各类中间状态。综合“整体有效性”：TP 66%，先验有效16%，部分有效11%，先验部分有效0%，FP 6%，先验无效1%。在明确结局的1,502种中，TP率92%，FP率8%。不同警报置信度差异较大：支持物质多、结构受限的警报（如子类4.1、4.5、4.6、5.1、5.3及第6类）通常更可靠；结构模式宽松的警报不确定性更高。未来可用更多类似物增强TP支撑。

3.5 预测能力评估

由于完整外部机制毒理数据集稀缺，研究人员借助间接证据：iSafeRat急/慢性鱼、溞、藻毒性QSAR模型，按MechoA+子类分别建立与水溶解度等的线性回归，多数实验值落在预测值3倍因子内，部分子类（1.1、1.2、1.3、2.1、3.1、3.2、4.4、5.2等）已有统计验证QMRF。此外，Kramer等人的MoA数据集可作未来局部验证参考。这些独立证据支撑了主要机制类在鱼、溞、藻上的合理性。

3.6 决策树

MechoA+按“预期急性毒性潜力”排序：首条排除规则 > 第6类部分（6.1,6.2,6.3）> 第3类 > 其余第6类 > 第5类 > 第4类及2.2,2.3 > 第1类部分（1.3,1.2）> 第二条排除规则 > 2.1 > 1.1 > 适用域外（AD）。一旦对某分类群给出预测，后续低优先级警报不再运行，输出聚焦最相关MIE，避免信息过载。与SF不同，MechoA+通过单响应每分类群简化监管归类。未来可对比XGBoost、随机森林、TabPFN-2.5等机器学习更新版本。

3.7 结果多样性

同一物质可因分类群不同获得多组MIE预测，如某分子既是乙酰胆碱酯酶抑制剂（动物）又是硬亲电试剂（广布）。输出格式“MechoA xxY.Z”中xx为分类群代码，Y为机制类，Z为亚类，缺省分类群意为所有物种，“!”表示排除后续类群。当前决策树可能隐藏同物种多靶点互补MIE，未来或允许高级用户切换“全警报/优先级”模式。

3.8 覆盖范围

3.8.1 训练集覆盖与旧方案比较：MechoA+可分类训练集中95%（1,991/2,091）物质，剩余5%多为适用域外（4%触发首条排除规则：混合物、无机物或SMILES错误）或软件无法读取。旧MechoA与SF覆盖率更低，合并警报明显拓展域。在1,383个TP中，SF贡献了第3、4、6类不少新警报，MechoA贡献均衡，尤其第1、2、5类，MechoA+额外精炼进一步提升单方案外的新预测。

3.8.2 扩展清单覆盖：

3.8.2.1 域延展：测试集76,120种物质中，MechoA+完成60,684种（80%）预测；8%适用域外（规则1与150），3%为结构未正确检测（规则150），9%为SMILES兼容问题。

3.8.2.2 按用途覆盖：化妆品成分~90%最高，药物数据库（DrugBank与Pharma）约79%最低（含制剂与代谢物），整体各库均约≥79%，显示跨用途稳健性。未来可扩充有机制数据的药物子集以提升对非靶种MIE的预测。

3.9 分类结果分析

对比各方案每类预测数（多类别重复计一次）：第1类膜去稳定化（麻醉）最多——基线毒性普遍存在；第2类酶解水解预测数较SF增、较MechoA略减，源于警报151对酯/磷酸酯/碳酸酯/氨基甲酸酯的细化；第3类自发反应性较两旧方案均增多，吸纳SF的Enoch系警报；第4类代谢第一步约占1/4预测，显示代谢信息重要性；第5类间接系统干扰第三多，受益于5.2等新限制与新增警报；第6类特异性大分子互作较MechoA略减、较SF翻倍，因MechoA中原先过于宽泛的保守警报被修正。分类学适用细化尤见于第6类。未来拟增加药物特化机制与潜在内分泌活性物质（EAS）规则。

3.10 结构覆盖改进

基于MACCS指纹的t-SNE二维化学空间图显示：MechoA+预测（绿）区域明显大于未预测（红），较MechoA与SF更宽地囊括日常（生态）毒理学家接触的化学结构，结构、机制与分类学适用域综合优于既有MIE模型。

3.11 MechoA+应用

MechoA+以“机制轮”可视化与简练文本输出，自动化友好，MIE结果可对接AOP，统合毒理与生态毒理视角。作为剖析器，可支撑减少/优化/替代动物测试，辅助读段延伸（符合ECHA RAAF框架元素2.2）与分组论证。已实现于iSafeRat Desktop内部版及OECD QSAR Toolbox插件，支持类似物搜索，在线API在开发中。早期研发中可用于更安全的设计、合规预判与后期返工削减。

该剖析器也可作为机制QSAR基石，已有按MechoA+分类而非单纯结构建立的定量机制-活性关系（QMARs）用于鱼、溞、藻急/慢性生态毒理模型，符合OECD第五原则（机制解释）。MechoA+本身不提供定量危害值，不同终点需结合log K_OW或膜-水分配K_MW、水溶解度、毒代动力学（ADME）、自氧化或透皮性等。对于致癌、发育生殖、重复剂量等尚需深化，内分泌模态剖析器正在开发并将集成。

总体而言，MechoA+在同一框架下实现了比现有方案更宽机制、结构与分类学域覆盖，可跨多物种预测MIE，输出结构化可解释结果，兼顾高通量筛选与机制分析，适用于监管与研发。

四、讨论与结论翻译总结

研究人员通过合并与精炼MechoA及Sapounidou–Firman方案，构建了决策树型结构警报剖析器MechoA+，含152个MIE警报与2条适用域排除规则，将物质划为6类27亚类。在2,091种内部训练物质上达到92%预测正值率（TP），在76,120种外部测试物质中覆盖80%。相比前身方案，MechoA+扩展了结构、机制与分类学适用域，通过EggNOG/NCBI细化特异性MIE的分类学范围，并以优先级决策树输出最简相关MIE，兼顾解释性与监管友好性。工具已嵌入iSafeRat Desktop与OECD QSAR Toolbox，可支撑更精准的危害评估、QSAR/QMAR构建、读段延伸与早期安全设计。未来可通过更大验证集、机器学习对照及内分泌模态补充进一步增强。该工作代表MIE导向计算机毒理剖析器的重要进展，推动非动物测试范式下的化学品安全评估。

热点排行