主动学习优化的动态采样策略:提升化学化合物毒性预测的准确性

《Industrial & Engineering Chemistry Research》:Active Learning-Optimized Dynamic Sampling Strategy for Enhanced Toxicity Prediction of Chemical Compounds

【字体: 时间:2025年10月27日 来源:Industrial & Engineering Chemistry Research 3.9

编辑推荐:

  毒性预测通过动态数据采样方法提升机器学习模型准确率,结合化学空间距离和可视化异常检测优化样本权重,在随机森林和卷积神经网络模型中分别实现25.68%和23.92%的精度提升。

  
摘要图片

化学化合物的毒性预测对于环境风险缓解和材料安全合成至关重要,尤其是在催化反应器安全、可持续工艺的溶剂筛选、工业材料危害评估以及化学品设计方面。机器学习(ML)的最新进展使得通过数据驱动的建模方法能够高效可靠地预测化学化合物。然而,使用ML方法构建的模型的泛化能力在很大程度上受到原始实验数据集质量和特征工程复杂性的限制。本研究提出了一种基于主动学习思想的新型动态数据采样方法,该方法源自ML技术。该方案包括量化化学空间距离,并利用可视化方法检测异常样本。随后,通过多轮加权训练和动态样本权重调整机制实现动态采样。基于阈值的选择机制被用来筛选用于升级训练模型的样本,从而显著提高了新模型的预测准确性。当应用于现有的毒性数据集时,所提出的采样方法使基于分子指纹的随机森林模型准确率提高了25.68%,使卷积神经网络模型的准确率提高了23.92%。这些结果表明,使用该方法优化的毒性预测模型比传统方法具有更高的准确性,证明了该方法作为化学安全评估中毒性评估工具的可靠性。利用该模型对与毒性相关的分子特征进行的解释性研究为化学过程和材料开发中的风险缓解提供了重要见解。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号