综述：预测生态毒理学研究间的可比性分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

综述：预测生态毒理学研究间的可比性分析

《Computational Toxicology》：On the comparability between studies in predictive ecotoxicology

【字体：大中小】 时间：2025年08月08日 来源：Computational Toxicology 2.9

编辑推荐：

　　这篇综述系统剖析了预测生态毒理学（predictive ecotoxicology）领域的研究可比性困境，提出五项核心标准：数据集一致性、清洗流程标准化、训练/测试集划分统一、评估指标（如R2变体）明确定义及代码数据共享。作者以鱼类急性毒性预测（QSAR/ML模型）为例，揭示当前研究间零可比性现状，呼吁建立基准数据集与结构化报告规范（如EMBRACE清单），推动该领域从碎片化走向协同发展。

Scope & study selection

通过GoogleScholar和ResearchRabbit检索2013-2024年间鱼类急性毒性预测文献，关键词组合涵盖机器学习（ML）、定量构效关系（QSAR）等，筛选标准聚焦于采用计算毒理学方法的论文。

Comparability criteria

提出五维可比性框架：

数据集同源性：不同研究使用的化学品/物种空间需重叠，例如Ghosh与Yu团队虽共用Li数据集，但化合物筛选差异导致结果不可比；
数据清洗透明化：如logP值截断阈值不一致会显著影响模型输出；
数据分割一致性：随机种子或分层策略差异可使相同算法性能波动达R²±0.15；
指标定义精确性：调整R²与标准R²的混用造成性能误判；
可重复性保障：仅17%研究公开代码，且缺乏Docker等环境固化手段。

Example comparison

以Ghosh（2018）和Yu（2021）研究为例：两者虽基于Li的鱼类LC₅₀数据，但Ghosh剔除logP>5的化合物而Yu保留，导致模型适用范围差异；Yu采用5折交叉验证而Ghosh使用70/30分割，直接比较AUC值将产生误导性结论。

Suggestions towards achieving comparability

基准数据集：推荐使用Tox21等标准化数据库，配套清洗协议与预定义数据分割；
版本控制：通过Zenodo或GitHub发布数据集时需绑定DOI及版本号；
结构化报告：采用CLEVA-COMPASS清单标注超参数与数据预处理细节；
容器化技术：建议模型代码与依赖环境打包为Singularity镜像。

Conclusion

当前预测生态毒理学领域存在严重的"孤岛效应"，93%的文献至少违反一项可比性标准。亟需建立类似计算机视觉领域的MLPerf标准化评测体系，通过期刊强制数据可用性声明（DAS）和第三方基准测试推动方法学进步，最终服务于REACH法规下的化学品风险评估。

CRediT authorship contribution statement

Schür主导数据分析和文稿撰写，Schirmer提供生态毒理学专业指导，Baity-Jesi负责机器学习方法验证，三方通过瑞士数据科学中心（SDSC）与欧洲化学品风险评估计划（PARC）协同完成。

Declaration of Generative AI

使用ChatGPT 4o辅助文献信息提取与语言润色，但所有结论均经人工核验。

Competing interests

作者声明受SDSC和PARC基金资助，无商业利益冲突。

Acknowledgments

致谢SDSC的L. Gasser提供算法优化建议，图表由BioRender.com制作。

联系信箱：

粤ICP备09063491号

热点排行