基于多模态系统生物学的遗传毒性AI预测新方法：GenotoxNet框架的构建与应用

《Briefings in Bioinformatics》：Advancing toxicity AI-based prediction with multilevel systems biology: a case study on genotoxicity

【字体：大中小】 时间：2025年11月17日 来源：Briefings in Bioinformatics 7.7

编辑推荐：

　　本研究针对化学多样性快速扩张带来的健康和环境风险评估挑战，开发了名为GenotoxNet的多模态深度学习框架。该研究通过整合化学结构、高通量体外实验数据和转录组学数据，显著提升了遗传毒性预测的准确性（AUCROC达0.891±0.017），克服了传统QSAR模型在捕捉细胞异质性和机制复杂性方面的局限。该框架不仅为有害化学物的健康风险防控提供了新策略，还通过多模态特征与不良结局路径（AOP）的对齐增强了机制解释性，对推进毒性预测和监管决策具有重要意义。

随着工业和环境化学品的快速扩张，其潜在健康影响引发了广泛关注。传统的体外和体内毒性评估方法虽然重要，但在3R原则（即减少、优化和替代动物实验）下面临着伦理和操作上的挑战。为了应对这些限制，计算机模拟方法如定量结构-活性关系（QSAR）被广泛用于毒性预测。QSAR模型利用化学物之间的结构相似性来推断毒理学性质，但它们往往难以捕捉细胞类型特异性和组织特异性的毒理学响应，导致出现“活性悬崖”现象——即结构相似的化合物表现出显著不同的毒性效应。

以遗传毒性为例，其特征是化学物诱导的遗传损伤，涵盖了除直接致突变性外的一系列机制，包括染色体断裂和非致畸性突变。先前的QSAR研究通常采用大量分类器和分子描述符，选择最佳组合以解决基于算法或结构的模型的局限性。然而，即使复杂的基于结构的模型也难以区分具有不同毒理学结果的密切相关化学物。一个显著的例子是甲基对硫磷（CAS号298-00-0）和对硫磷（CAS号56-38-2），它们仅相差一个甲基（-CH₃）或乙基（-C₂H₅），但只有甲基对硫磷表现出遗传毒性。这种差异凸显了依赖结构的预测方法在准确捕捉驱动系统性毒性的细胞异质性和多靶点相互作用方面的局限性。

除了结构特征，生物响应数据——如转录组学和高通量生物测定数据——通过捕捉化学暴露后细胞特异性分子扰动，提供了更深入的机制见解。这层额外信息有助于厘清化学物与生物系统之间的复杂相互作用，从而更细致地理解毒性机制。例如，Li等人构建了一个大规模毒理基因组学数据集，分析了HepG2细胞暴露于330种化学物多个剂量下的6000个基因表达谱。他们的随机森林（RF）模型在致癌性上达到了接收者操作特征曲线下面积（AUC_ROC）72.2%，在遗传毒性上达到82.3%，证明短期转录组响应可以部分预测长期毒理学结果。然而，转录组学和高通量筛选（HTS）数据的有效性常受实验变异性和其无法完全捕捉触发毒性级联的分子起始事件（MIE）的限制。

为了提高预测准确性和机制可解释性，在多模态框架内整合化学结构、基因表达和生物测定数据已成为一种有前景的解决方案。Liu等人结合ToxCast生物活性描述符与机器学习算法预测了ToxRefDB数据库中677种化学物的肝毒性。然而，他们的方法主要依赖于输入级数据融合，限制了模型捕捉跨模态关系和深度特征相互作用的能力。随着人工智能（AI）和深度学习（DL）的快速发展，依赖其能够自动提取数据深层特征的优越算法和灵活模型架构，在提高预测准确性和扩大应用范围方面显示出巨大潜力。特别是，多模态深度学习（MMDL）的最新进展通过采用中间特征融合克服了这些限制，使模型能够提取复杂关系同时保留模态特异性特征。例如，Yang等人开发了GPDRP，一个用于药物响应预测的多模态模型，整合了分子图与基因通路活性评分，而XGDP则结合了癌细胞基因表达谱以优化预测。这些基于图神经网络（GNN）和DL架构的方法展示了跨模态整合在改进生物响应建模方面的潜力。

基于这些进展，我们引入了GenotoxNet，一个MMDL模型，旨在通过整合化学结构特征、转录组学数据和ToxCast HTS生物测定来预测遗传毒性。通过采用中间融合，该模型有效捕捉细胞异质性，确保关键生物相互作用被保留，同时实现复杂的跨模态特征提取。GenotoxNet展示了相较于近期QSAR和单模态模型的优越预测性能，在多个评估指标上达到了先进水平。为了进一步增强可解释性，我们利用典型遗传毒性化学物的多模态特征表示与不良结局路径（AOP）分析相结合，将计算机预测与机制毒理学联系起来。这种方法不仅促进了对遗传毒性机制的更深理解，还为风险评估、监管决策和旨在减轻有害化学物健康风险的预防策略提供了稳健框架。

研究人员主要采用了多模态深度学习架构，整合了化学结构（通过图卷积网络处理分子图）、基因表达数据（来自CRCGN_ABC的HepG2细胞系转录组谱）和ToxCast高通量筛选数据（选自9个与遗传毒性机制相关的生物测定类别）。数据预处理包括分子结构标准化、基因表达谱清洗（聚焦295个遗传毒性相关基因）和生物测定端点筛选。模型通过5折交叉验证优化超参数，并采用中间融合策略将不同模态特征结合，最终通过卷积层和全连接层进行分类预测。外部验证集由Carcinogenome Project中未标注的44种化学物构成，用于评估模型泛化能力。机制分析部分结合梯度 attributions 和AOP框架（通过AOP-helpFinder和AOP-Wiki检索）阐释关键基因和通路。

分析数据集和比较物质特征

通过计算244种物质的Tanimoto相似系数和皮尔逊相关系数（PCC），发现数据集中结构多样性显著，平均相似度仅为0.26。生物测定数据在遗传毒性和非遗传毒性物质组内相关性最高（0.527±0.201和0.583±0.208），化学结构次之，基因表达数据相关性最低（0.199±0.129和0.154±0.115），表明各模态提供互补信息。对三对代表性物质（如氯乙酸和二氯乙酸）的分析显示，结构相似物质可能表现出相反的遗传毒性结果，且其基因表达谱和生物测定响应重叠度低，凸显了多模态整合的必要性。

模型性能和消融分析

GenotoxNet（S+G+B）在内部测试集上达到AUC_ROC 0.891±0.017和AUC_PRC 0.874±0.045，优于所有单模态和双模态变体。结构单独模型（S）在单模态中表现最佳（AUC_ROC=0.847±0.037），而生物测定单独模型（B）最弱（AUC_ROC=0.582±0.103）。基因表达（G）模型优于生物测定（B），表明转录组响应能更丰富地表征细胞扰动。在双模态模型中，S+G表现最强，而G+B最差，强调化学结构在预测中的主导作用。与经典机器学习和多模态基线（如GPDRP）的比较显示，GenotoxNet在所有指标上均领先。t-SNE可视化表明训练后特征空间能清晰区分遗传毒性和非遗传毒性物质。

外部化学集的泛化评估

在44种外部化学物上，模型预测与文献部分一致：如2-亚硝基甲苯（CAS 611-23-4）被报道具有遗传毒性，α-六氯环己烷（CAS 319-84-6）有潜在遗传毒性，而硝苯地平（CAS 21829-25-4）为假阳性。2,6-二硝基甲苯（CAS 606-20-2）的预测概率约0.5，与实验显示的弱遗传毒性条件性一致，表明模型具有良好的泛化能力。

遗传毒性的分子机制分析

通过分析七种遗传毒性物质（如N-亚硝基吗啉、丙烯醛）中梯度总和最高的20个基因，发现环素F（CCNF）和赖氨酸去甲基化酶3A（KDM3A）等基因的 attributions 与差异表达（MODZ）一致，表明梯度捕捉了生物学相干信号。网络分析将物质映射到AOP组件，揭示了DNA损伤、氧化应激和细胞周期调控的收敛性破坏。以NDEA为例，其通过Cyp2E1激活和DNA烷基化两个MIE驱动下游级联，导致肝毒性和癌症（AOP220）。关键基因如IKBKE（排名第二）的上调与氧化应激和NF-κB激活一致，支持AOP220和AOP322事件。ToxCast测定数据（如TOX21_RT_HEPG2_FLO）进一步佐证了这些机制关联。

GenotoxNet通过整合化学结构、转录组学和生物测定数据，显著提升了遗传毒性预测的准确性和机制可解释性。该框架不仅克服了传统QSAR模型在捕捉细胞异质性和活性悬崖方面的局限，还通过多模态特征与AOP的对齐，为毒性机制提供了系统生物学视角。尽管面临数据量有限、模态不全等挑战，但通过自监督预训练、迁移学习和生成模型等方法有望进一步扩展应用。未来工作可聚焦于从化学结构推断缺失生物数据、融入多细胞系和单细胞读值等方向，以强化模型在监管决策和风险评估中的实用性。

热点排行