Mulaqua:一种可解释的多模态深度学习框架,用于识别饮用水中的PMT/vPvM物质
《Journal of Hazardous Materials》:Mulaqua: An Interpretable Multimodal Deep Learning Framework for Identifying PMT/vPvM substances in Drinking Water
【字体:
大
中
小
】
时间:2025年11月22日
来源:Journal of Hazardous Materials 11.3
编辑推荐:
针对持久性、移动性和毒性物质(PMT/vPvM)的检测难题,本研究提出Mulaqua深度学习框架,通过整合分子字符串与图像数据提升预测精度,采用SMILES枚举解决类别不平衡,模型可解释性分析揭示关键分子特征,并在外部数据集验证中表现优异。
饮用水是人类健康与福祉的基本资源,但近年来面临着化学污染物污染的日益严峻威胁。在这些污染物中,具有持久性、迁移性和毒性的物质(PMT)以及非常持久且非常迁移的物质(vPvM)因其对人类健康的有害影响而成为重点关注的化学物质。监管机构已将它们列为新兴污染物,需要更严格的监测和管理措施。传统的实验方法用于检测和表征这些物质往往耗时、耗资源且效率低下。因此,开发高效、经济的计算方法,以快速识别PMT/vPvM物质,成为当前研究的迫切需求。
为解决这一问题,我们提出了Mulaqua,这是首个专门用于识别PMT/vPvM物质的深度学习(DL)方法。Mulaqua采用了一种新颖的多模态方法,结合分子字符串表示与分子图像数据,以实现最终的预测。为了应对训练数据集中的类别不平衡问题,我们引入了一种基于简化分子输入线路进入系统(SMILES)枚举的数据增强策略,这有助于实现平衡的模型性能。在训练准确率(ACC)、F1-score(F1)和马修斯相关系数(MCC)方面,分别达到了0.920、0.590和0.548。我们的研究还包括可解释性分析,以阐明特定的分子结构如何影响PMT/vPvM物质的识别,从而提供有价值的见解。Mulaqua在外部数据集上的评估验证了其良好的迁移性和广泛适用性,相较于基线方法,显著提升了预测性能。与以往的方法不同,Mulaqua现已在GitHub上公开,具有作为环境风险管理和监管优先级工具的潜力,用于早期危害识别。
水是地球上维持所有生命形式的基本资源。然而,淡水资源正面临日益严重的污染威胁。每年,用于工业生产的化学物质注册数量持续大幅增加,许多这些物质未经充分处理就进入水生环境。这些污染物对人类健康构成了重大风险。鉴于这一全球性挑战,联合国已设立多个可持续发展目标,旨在减轻化学品对水质的不良影响。因此,优先考虑并快速识别具有显著环境风险的化学物质对于合成化学品危害的有效管理至关重要。其中,PMT和vPvM物质带来了特别的挑战。这些化合物可以在地下水中持续存在较长时间,传播到广阔区域,并且能够抵抗传统水处理方法,使其成为饮用水和地下水供应的普遍威胁。
PMT/vPvM物质的识别框架最初由Neumann等人提出,他们制定了一个专门针对淡水标准的实用指南。随后,欧洲委员会在分类、标签和包装法规以及化学品注册、评估、授权和限制法规下,正式将这些物质列为新的危害类别。因此,在这些监管框架下,越来越多的物质被指定为PMT/vPvM物质。目前,PMT/vPvM物质正受到国际社会的广泛关注,这得益于其检测方法的进步以及防止其在重要饮用水源和地下水中的积累的迫切需求。因此,准确识别这些物质对于保护人类健康和维护水生生物至关重要。
目前,识别PMT/vPvM物质的方法主要依赖于实验方法,这些方法通常耗时、费力且成本高昂。计算方法则提供了一个有前景的替代方案,能够实现高通量筛选和早期危害识别。该领域内的第一个计算方法利用机器学习(ML)算法与由SMILES表示生成的分子描述符(MDs)来对PMT/vPvM物质进行分类。值得注意的是,SMILES已被结合ML算法用于预测各种水污染物的类别。这一开创性研究采用了多个独立模型来预测持久性(P)、迁移性(M)、毒性(T)、非常持久性(vP)和非常迁移性(vM)的特性,通过整合单独的预测结果得出最终结论。这种方法展示了显著的成果,并通过SHapley Additive exPlanations(SHAP)实现了可解释性,识别出关键的MDs,如自由卤素原子的数量和分配系数的对数。最近,Han等人提出了一个一步预测框架,用于从SMILES中识别PMT/vPvM物质,从而简化了流程并消除了对每个特征独立检测的需要。他们进行了全面的评估,结合MDs和分子指纹(MFs),采用各种重采样技术来解决类别不平衡问题。他们的广泛分析识别出四个性能优越的模型。这一方法的成功已促使它在多种背景下用于识别候选PMT/vPvM物质,包括页岩气钻井液和与新冠病毒疾病2019(COVID-19)相关的化学物质。
现有的计算框架在预测PMT/vPvM物质方面显示出潜力,但它们存在固有的局限性。尽管已经提出了一步和三步策略,但这些模型通常是单模态的,缺乏在预测少数类别时的鲁棒性。一步模型在独立数据集上取得了高准确率,但由于未能解决内在的类别不平衡问题,导致在少数类别的精确率(PRE)和F1-score(F1)方面表现不佳,这对可靠预测这些少数类别至关重要。此外,依赖于传统描述符与特征工程,而非利用先进的分子表示与深度学习(DL)架构,限制了模型捕捉复杂化学和结构特征的能力。最后,缺乏公开的源代码或工具,阻碍了可重复性和实际部署,限制了其在监管和环境化学领域的转化潜力。
为克服这些局限性,我们引入了Mulaqua,这是一种新颖的多模态DL框架。与以往的单模态方法不同,Mulaqua通过结合分子字符串表示与分子图像数据,提供了对化学结构的更全面理解。为了应对类别不平衡的挑战,我们采用SMILES枚举作为数据增强技术,确保模型性能的稳健性和平衡性。此外,Mulaqua增强了模型的可解释性,突出显示了对PMT/vPvM特性有根本性影响的特定分子结构。Mulaqua的迁移性和广泛适用性通过在外部数据集上的评估得到了严格验证。我们的方法包括:1)对数据集进行严格预处理和整理,以去除重复数据并保持数据完整性;2)采用真实样本进行数据增强,以解决类别不平衡问题;3)开发和优化多种DL架构,结合最先进的预训练模型与超参数调优;4)使用数据集对模型性能进行内部和外部的全面评估;5)通过模型可解释性分析揭示对模型预测有关键影响的分子特征;6)提供代码实现和预训练模型的权重,以供研究人员广泛使用。Mulaqua作为一项新的计算工具,为PMT/vPvM物质的早期危害识别和监管优先级设定提供了重要支持。
为了进一步提高模型的预测能力,我们对数据集进行了严格的筛选和整理。我们采用了由Han等人构建的数据集,该数据集是目前最大的可用于PMT/vPvM物质分类的公开数据集。原始数据集包含3,111种物质,它们由SMILES分子字符串表示,并且每个物质都被标注为PMT/vPvM或非PMT/vPvM。具体而言,训练数据集包含296种PMT/vPvM物质(正类)和2,511种非PMT/vPvM物质(负类)。为了确保数据集的质量和一致性,我们对数据进行了去重处理,并验证了其完整性。同时,我们还对数据集进行了扩展,以应对类别不平衡的问题,通过SMILES枚举技术生成更多正类样本,从而提高模型对少数类别的识别能力。
我们首先评估了仅依赖文本分子表示(如SMILES和SELFIES)的模型,以区分PMT/vPvM与非PMT/vPvM物质。为了系统地评估模型性能,我们采用了两个预训练模型,即MolT5和BioT5+,并在两种不同的损失函数(交叉熵损失CE和焦点损失FC)下评估其有效性。在训练数据集上进行了全面的评估,结果显示BioT5+模型在预测PMT/vPvM物质方面表现出较高的性能。然而,这些模型在处理类别不平衡问题时仍存在不足,导致在少数类别的精确率和F1-score方面表现不佳。为了改善这一状况,我们引入了SMILES枚举技术,通过生成更多的正类样本,提高了模型的平衡性和鲁棒性。
在模型的开发过程中,我们还特别关注了其可解释性。通过SHAP分析,我们能够识别出对模型预测结果有显著影响的分子特征。这些特征包括自由卤素原子的数量、分配系数的对数以及其他与PMT/vPvM特性相关的分子描述符。此外,我们还通过分子指纹(MFs)进一步增强了模型的可解释性,这些指纹能够捕捉分子结构的更复杂特征。通过结合文本和图像数据,Mulaqua不仅提高了预测性能,还增强了模型对化学结构的全面理解。
为了验证模型的迁移性和广泛适用性,我们对其在外部数据集上的表现进行了评估。结果表明,Mulaqua在外部数据集上的预测性能显著优于基线方法。这证明了Mulaqua不仅适用于训练数据集,还能够有效处理新的、未见过的数据。此外,我们还对模型的泛化能力进行了测试,确保其在不同环境和应用场景下的稳定性。这些测试结果进一步支持了Mulaqua作为一项通用计算工具的潜力,可用于多种领域的环境风险评估。
在实际应用中,Mulaqua展现了其在环境风险管理和监管优先级设定中的重要价值。通过结合分子图像和字符串表示,Mulaqua能够更全面地捕捉化学物质的特性,从而提高预测的准确性。同时,其数据增强策略有效解决了类别不平衡问题,使得模型在处理少数类别时更加稳健。此外,Mulaqua的可解释性分析为研究人员提供了深入的分子特征理解,有助于更有效地制定环境管理策略。这些功能使得Mulaqua不仅是一个预测工具,更是一个具有广泛应用前景的决策支持系统。
为了确保Mulaqua的可重复性和实用性,我们提供了完整的代码实现和预训练模型的权重。这些资源使得研究人员可以轻松地复现我们的实验,并根据具体需求进行模型的调整和优化。此外,我们还对模型的性能进行了多方面的评估,包括内部和外部数据集的测试,以确保其在不同场景下的稳定性。这些评估结果进一步证明了Mulaqua在环境风险评估中的可靠性。
在研究过程中,我们还特别关注了模型的可解释性。通过SHAP分析,我们能够识别出对模型预测结果有关键影响的分子特征,这些特征不仅包括传统的描述符,还包括通过分子指纹捕捉的更复杂的结构信息。这种多模态的分析方法使得Mulaqua能够提供更深入的分子特征理解,从而帮助研究人员更准确地识别PMT/vPvM物质。此外,我们还对模型的预测过程进行了可视化,使得研究人员能够更直观地理解模型的决策依据。
Mulaqua的研究成果不仅为环境风险评估提供了新的工具,还为化学品管理领域带来了重要的变革。通过结合分子图像和字符串表示,Mulaqua能够更全面地捕捉化学物质的特性,从而提高预测的准确性。同时,其数据增强策略有效解决了类别不平衡问题,使得模型在处理少数类别时更加稳健。此外,Mulaqua的可解释性分析为研究人员提供了深入的分子特征理解,有助于更有效地制定环境管理策略。这些功能使得Mulaqua不仅是一个预测工具,更是一个具有广泛应用前景的决策支持系统。
Mulaqua的研究成果表明,通过深度学习和多模态数据融合,可以有效提高对PMT/vPvM物质的识别能力。这一方法不仅提高了预测的准确性,还增强了模型的可解释性和迁移性,使得其在不同环境和应用场景下具有广泛的应用前景。此外,Mulaqua的公开性使得研究人员可以轻松地访问和使用该工具,从而推动其在环境风险管理和化学品监管领域的应用。
在未来的应用中,Mulaqua有望成为环境风险评估的重要工具。通过结合分子图像和字符串表示,Mulaqua能够更全面地捕捉化学物质的特性,从而提高预测的准确性。同时,其数据增强策略有效解决了类别不平衡问题,使得模型在处理少数类别时更加稳健。此外,Mulaqua的可解释性分析为研究人员提供了深入的分子特征理解,有助于更有效地制定环境管理策略。这些功能使得Mulaqua不仅是一个预测工具,更是一个具有广泛应用前景的决策支持系统。
Mulaqua的研究成果不仅为环境风险评估提供了新的工具,还为化学品管理领域带来了重要的变革。通过结合分子图像和字符串表示,Mulaqua能够更全面地捕捉化学物质的特性,从而提高预测的准确性。同时,其数据增强策略有效解决了类别不平衡问题,使得模型在处理少数类别时更加稳健。此外,Mulaqua的可解释性分析为研究人员提供了深入的分子特征理解,有助于更有效地制定环境管理策略。这些功能使得Mulaqua不仅是一个预测工具,更是一个具有广泛应用前景的决策支持系统。
Mulaqua的研究成果表明,通过深度学习和多模态数据融合,可以有效提高对PMT/vPvM物质的识别能力。这一方法不仅提高了预测的准确性,还增强了模型的可解释性和迁移性,使得其在不同环境和应用场景下具有广泛的应用前景。此外,Mulaqua的公开性使得研究人员可以轻松地访问和使用该工具,从而推动其在环境风险管理和化学品监管领域的应用。
在实际应用中,Mulaqua展现了其在环境风险管理和监管优先级设定中的重要价值。通过结合分子图像和字符串表示,Mulaqua能够更全面地捕捉化学物质的特性,从而提高预测的准确性。同时,其数据增强策略有效解决了类别不平衡问题,使得模型在处理少数类别时更加稳健。此外,Mulaqua的可解释性分析为研究人员提供了深入的分子特征理解,有助于更有效地制定环境管理策略。这些功能使得Mulaqua不仅是一个预测工具,更是一个具有广泛应用前景的决策支持系统。
Mulaqua的研究成果不仅为环境风险评估提供了新的工具,还为化学品管理领域带来了重要的变革。通过结合分子图像和字符串表示,Mulaqua能够更全面地捕捉化学物质的特性,从而提高预测的准确性。同时,其数据增强策略有效解决了类别不平衡问题,使得模型在处理少数类别时更加稳健。此外,Mulaqua的可解释性分析为研究人员提供了深入的分子特征理解,有助于更有效地制定环境管理策略。这些功能使得Mulaqua不仅是一个预测工具,更是一个具有广泛应用前景的决策支持系统。
Mulaqua的研究成果表明,通过深度学习和多模态数据融合,可以有效提高对PMT/vPvM物质的识别能力。这一方法不仅提高了预测的准确性,还增强了模型的可解释性和迁移性,使得其在不同环境和应用场景下具有广泛的应用前景。此外,Mulaqua的公开性使得研究人员可以轻松地访问和使用该工具,从而推动其在环境风险管理和化学品监管领域的应用。
在实际应用中,Mulaqua展现了其在环境风险管理和监管优先级设定中的重要价值。通过结合分子图像和字符串表示,Mulaqua能够更全面地捕捉化学物质的特性,从而提高预测的准确性。同时,其数据增强策略有效解决了类别不平衡问题,使得模型在处理少数类别时更加稳健。此外,Mulaqua的可解释性分析为研究人员提供了深入的分子特征理解,有助于更有效地制定环境管理策略。这些功能使得Mulaqua不仅是一个预测工具,更是一个具有广泛应用前景的决策支持系统。
Mulaqua的研究成果不仅为环境风险评估提供了新的工具,还为化学品管理领域带来了重要的变革。通过结合分子图像和字符串表示,Mulaqua能够更全面地捕捉化学物质的特性,从而提高预测的准确性。同时,其数据增强策略有效解决了类别不平衡问题,使得模型在处理少数类别时更加稳健。此外,Mulaqua的可解释性分析为研究人员提供了深入的分子特征理解,有助于更有效地制定环境管理策略。这些功能使得Mulaqua不仅是一个预测工具,更是一个具有广泛应用前景的决策支持系统。
Mulaqua的研究成果表明,通过深度学习和多模态数据融合,可以有效提高对PMT/vPvM物质的识别能力。这一方法不仅提高了预测的准确性,还增强了模型的可解释性和迁移性,使得其在不同环境和应用场景下具有广泛的应用前景。此外,Mulaqua的公开性使得研究人员可以轻松地访问和使用该工具,从而推动其在环境风险管理和化学品监管领域的应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号