一种利用通信式消息传递神经网络预测化学物质生殖毒性的深度学习方法
《Frontiers in Toxicology》:A deep-learning approach to predict reproductive toxicity of chemicals using communicative message passing neural network
【字体:
大
中
小
】
时间:2025年07月23日
来源:Frontiers in Toxicology 4.6
编辑推荐:
本研究构建了基于Communicative Message Passing Neural Network(CMPNN)的化学分子生殖毒性预测模型,采用2154种化合物的SMILES数据集,通过嵌套五折交叉验证评估。结果显示,CMPNN在AUC(0.946)、准确率(0.857)等指标上显著优于随机森林(AUC 0.825)、XGBoost(AUC 0.823)等传统机器学习方法,验证了其捕捉分子多级结构关系的能力。该模型为替代动物实验提供高效工具,符合FDA等机构减少动物使用的政策趋势。
本研究聚焦于化学物质的生殖毒性预测,旨在开发一种更高效、准确的计算模型,以替代传统的动物实验。生殖毒性是化学安全评估、人类健康保护以及新型药物研发中至关重要的问题。许多化学物质,如环境污染物、工业化学品和日常用品中的成分,可能对生殖系统产生不良影响,包括降低生育能力、损害胚胎发育、增加先天缺陷风险等。这些影响不仅威胁个体健康,还可能波及后代,造成长期的健康负担。随着全球对化学安全性要求的提高,特别是欧美等国家和地区的监管机构逐步引入计算模型作为评估工具,传统实验方法正面临效率、成本和伦理上的多重挑战。因此,开发基于人工智能的计算模型成为当前化学安全研究的热点方向。
在当前研究中,我们利用了一组包含2,154种化合物的生殖毒性数据集,这些化合物的结构信息通过SMILES格式表示,并按照是否具有生殖毒性进行二分类标注。为了更全面地评估模型的性能,我们采用了重复嵌套交叉验证的方式,将数据集分为五组,其中一组作为测试集,另一组则用于验证集和超参数调优。这一方法确保了模型的稳定性,并提高了预测结果的可重复性。在模型比较方面,我们评估了包括随机森林(Random Forest)、极端梯度提升(XGBoost)在内的11种经典机器学习算法,以及基于图神经网络(Graph Neural Network, GNN)的深度学习模型——Communicative Message Passing Neural Network (CMPNN)。结果显示,传统机器学习方法在预测性能上表现一般,无法满足高通量筛选的需求。相比之下,CMPNN框架在嵌入质量和预测准确性方面均表现出色,尤其在独立测试集上,其平均AUC为0.946,平均准确率(ACC)为0.857,F1分数为0.846,远超现有最佳模型,成为该领域的新一代技术标杆。
生殖毒性涵盖多个复杂机制,如内分泌干扰、氧化应激、基因毒性以及胚胎发育过程中的影响。这些机制可能通过不同的分子结构和化学性质被激活,例如某些化学物质可能干扰激素信号传导,导致生殖功能障碍;而另一些则可能通过氧化应激机制破坏细胞信号传导,进而影响精子生成和卵子成熟。此外,某些化学物质可能在胚胎发育阶段影响器官形成和形态发生,导致先天畸形或出生后发育迟缓。这些复杂的生物效应表明,仅依赖传统的分子描述符或单层模型难以全面捕捉化学物质的潜在风险。因此,引入能够自动提取分子图结构中丰富信息的深度学习方法显得尤为重要。
在深度学习模型中,图神经网络(GNN)因其对分子结构的动态建模能力,已成为预测化学性质的重要工具。GNN将分子视为无向图,其中原子为节点,键为边。通过消息传递机制,GNN能够动态地整合原子间的相互作用信息,从而生成更精确的分子嵌入表示。而Directed MPNN(DMPNN)则通过考虑边的方向性,更有效地区分不同节点之间的相互作用,减少了消息传递中的冗余。在这些模型的基础上,CMPNN进一步引入了“沟通核”(communicative kernel)和“消息增强模块”(message booster),以强化节点和边之间的信息交换,提升分子图嵌入的丰富性。这一设计使得CMPNN在多个分子属性预测任务中展现出优于DMPNN的性能。
在本研究中,我们使用了Python和RDKit等工具生成了分子指纹,并构建了基于图结构的分子表示。同时,我们采用深度学习模型ReproTox-CMPNN,通过自动提取分子图中的多层结构信息,实现了对生殖毒性更精准的预测。模型的训练过程采用了Adam优化器,结合批量归一化、学习率调整等策略,以提高模型的收敛速度和稳定性。在训练过程中,我们通过重复嵌套交叉验证的方式,确保模型在不同数据划分下仍能保持较高的预测性能。结果表明,ReproTox-CMPNN在多次测试中均表现出优异的性能,其平均AUC值高达0.946,准确率和F1分数均超过传统方法,证明了其在生殖毒性预测中的强大能力。
在模型评估方面,我们采用了多种标准指标,包括准确率(ACC)、受试者工作特征曲线下的面积(AUC-ROC)、F1分数、平衡准确率(BA)、Cohen’s Kappa和Matthews相关系数(MCC)。这些指标从不同角度衡量了模型的性能,其中AUC-ROC主要用于评估模型在区分正负样本方面的能力,而MCC则更全面地考虑了真实标签与预测结果之间的相关性。结果显示,ReproTox-CMPNN在所有指标上均优于传统机器学习模型,特别是在AUC和MCC方面,均达到了较高水平,表明其不仅具备良好的区分能力,还具有较高的预测一致性。
进一步分析表明,ReproTox-CMPNN在分子结构的建模过程中能够有效捕捉不同层级的分子关系,从而生成更准确的分子嵌入表示。这使得模型在预测复杂化学物质的生殖毒性时表现出更强的泛化能力。相比之下,传统的机器学习方法依赖于预计算的分子描述符,这些描述符通常无法动态适应分子结构的复杂变化,限制了其预测能力。此外,由于CMPNN能够自动学习分子结构中的关键特征,因此在实际应用中,它对专业人员的依赖程度较低,有助于提高预测的可操作性和普及性。
在分子结构的描述方面,我们发现部分关键特征在有毒和无毒化合物之间存在显著差异。例如,有毒化合物通常具有较高的分子量和极性表面积(TPSA),这可能与它们在生物体内的扩散能力和代谢路径有关。此外,有毒化合物在氢键供体和受体的分布上表现出更右偏的特征,表明氢键可能在生殖毒性机制中扮演重要角色。然而,单一的分子描述符难以完全解释毒性机制,因此需要多变量建模。通过整合这些描述符,ReproTox-CMPNN能够在更高维度上建模分子结构,从而提升预测的准确性和可靠性。
在模型训练和调优过程中,我们采用了精心设计的超参数配置,以确保模型在收敛速度和效率之间取得平衡。例如,学习率在训练初期线性增长,随后呈指数衰减,这一策略有助于减少训练初期的不稳定性,加快模型收敛,同时避免后期过度拟合。隐藏层的维度被设置为300,以充分捕捉分子结构的复杂信息,同时防止模型参数过多导致的过拟合问题。此外,模型的训练批次大小设为50,这一设置在充分利用GPU内存的同时,确保了模型训练的稳定性。通过这些优化措施,ReproTox-CMPNN在训练过程中展现出快速收敛和高稳定性,为未来大规模化学安全性评估提供了坚实的基础。
研究还表明,ReproTox-CMPNN在多个评估指标上均优于现有模型。例如,与Jiang et al. (2019)的SVM模型(AUC为0.900)相比,ReproTox-CMPNN的AUC值更高,且在准确率和MCC指标上也表现更优。同样,与Ren et al. (2024)的FGTN模型(AUC为0.914)相比,ReproTox-CMPNN的预测性能更为稳定,特别是在不同数据集划分情况下仍能保持较高的一致性。这些结果表明,ReproTox-CMPNN不仅在单个毒性终点的预测上表现出色,还具有较强的泛化能力,能够适应不同的数据分布和化学环境。
尽管ReproTox-CMPNN在当前研究中表现优异,但其仍有进一步优化的空间。例如,由于模型基于二维分子图,因此可能无法充分捕捉某些三维结构特性,如立体化学和空间相互作用,这在某些情况下可能影响预测的准确性。此外,当前研究主要基于有机化合物的数据,未来需验证其在无机盐或金属配合物等其他化学类型中的适用性。为了进一步提高模型的适用性,未来的工作可以包括扩展模型以预测多种毒性终点,如DNA损伤、内分泌干扰等,同时探索将ReproTox-CMPNN与蛋白质嵌入技术(如mask语言模型)相结合,以提升模型对复杂生物系统的影响预测能力。
总之,ReproTox-CMPNN模型在生殖毒性预测中展现出显著的优势,不仅在预测性能上超越了传统方法,还提供了更高效的计算工具。这一模型的开发不仅有助于降低化学安全性评估的成本和时间,还为减少动物实验提供了新的可能性。随着人工智能技术的不断进步,这类模型有望在未来成为化学安全评估和风险预测的核心工具,为人类健康和环境保护做出更大贡献。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号