综述:预测生态毒理学研究间的可比性分析

《Computational Toxicology》:On the comparability between studies in predictive ecotoxicology

【字体: 时间:2025年08月08日 来源:Computational Toxicology 2.9

编辑推荐:

  这篇综述系统剖析了预测生态毒理学(predictive ecotoxicology)领域的研究可比性困境,提出五项核心标准:数据集一致性、清洗流程标准化、训练/测试集划分统一、评估指标(如R2变体)明确定义及代码数据共享。作者以鱼类急性毒性预测(QSAR/ML模型)为例,揭示当前研究间零可比性现状,呼吁建立基准数据集与结构化报告规范(如EMBRACE清单),推动该领域从碎片化走向协同发展。

  

Scope & study selection

通过GoogleScholar和ResearchRabbit检索2013-2024年间鱼类急性毒性预测文献,关键词组合涵盖机器学习(ML)、定量构效关系(QSAR)等,筛选标准聚焦于采用计算毒理学方法的论文。

Comparability criteria

提出五维可比性框架:

  1. 数据集同源性:不同研究使用的化学品/物种空间需重叠,例如Ghosh与Yu团队虽共用Li数据集,但化合物筛选差异导致结果不可比;

  2. 数据清洗透明化:如logP值截断阈值不一致会显著影响模型输出;

  3. 数据分割一致性:随机种子或分层策略差异可使相同算法性能波动达R2±0.15;

  4. 指标定义精确性:调整R2与标准R2的混用造成性能误判;

  5. 可重复性保障:仅17%研究公开代码,且缺乏Docker等环境固化手段。

Example comparison

以Ghosh(2018)和Yu(2021)研究为例:两者虽基于Li的鱼类LC50数据,但Ghosh剔除logP>5的化合物而Yu保留,导致模型适用范围差异;Yu采用5折交叉验证而Ghosh使用70/30分割,直接比较AUC值将产生误导性结论。

Suggestions towards achieving comparability

  • 基准数据集:推荐使用Tox21等标准化数据库,配套清洗协议与预定义数据分割;

  • 版本控制:通过Zenodo或GitHub发布数据集时需绑定DOI及版本号;

  • 结构化报告:采用CLEVA-COMPASS清单标注超参数与数据预处理细节;

  • 容器化技术:建议模型代码与依赖环境打包为Singularity镜像。

Conclusion

当前预测生态毒理学领域存在严重的"孤岛效应",93%的文献至少违反一项可比性标准。亟需建立类似计算机视觉领域的MLPerf标准化评测体系,通过期刊强制数据可用性声明(DAS)和第三方基准测试推动方法学进步,最终服务于REACH法规下的化学品风险评估。

CRediT authorship contribution statement

Schür主导数据分析和文稿撰写,Schirmer提供生态毒理学专业指导,Baity-Jesi负责机器学习方法验证,三方通过瑞士数据科学中心(SDSC)与欧洲化学品风险评估计划(PARC)协同完成。

Declaration of Generative AI

使用ChatGPT 4o辅助文献信息提取与语言润色,但所有结论均经人工核验。

Competing interests

作者声明受SDSC和PARC基金资助,无商业利益冲突。

Acknowledgments

致谢SDSC的L. Gasser提供算法优化建议,图表由BioRender.com制作。

相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号