
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多类ARKA框架与机器学习堆叠回归的有机化合物致癌性预测新方法
【字体: 大 中 小 】 时间:2025年07月23日 来源:Journal of Hazardous Materials 12.2
编辑推荐:
环境中有机污染物的致癌性风险亟需高效评估工具。本研究创新性融合定量构效关系(QSAR)、跨读相似性分析(q-RASAR)和多类算术残差分析(ARKA)框架,结合机器学习堆叠回归技术,构建了口服斜率因子(OSF)和吸入斜率因子(ISF)预测模型。线性支持向量回归(LSVR)和岭回归(RR)分别以测试集MAE 0.907和0.827的优异表现,为环境致癌物风险评估提供了符合3R原则的新方法学(NAM)解决方案。
随着城市化进程加速,大量有机污染物进入生态环境并在生物链中富集,其中致癌性物质对人类健康的威胁尤为突出。欧盟每年新增300万癌症病例的数据警示着环境致癌物风险评估的紧迫性。传统啮齿类动物两年致癌实验虽为OECD标准方法,但存在耗时耗资、伦理争议等局限。在此背景下,印度国防研究与发展组织(DRDO)生命科学研究委员会资助的Arkaprava Banerjee与Kunal Roy团队在《Journal of Hazardous Materials》发表研究,提出融合多类算术残差分析(ARKA)框架与机器学习堆叠回归的创新方法学(NAM),为环境致癌物的快速筛查提供新工具。
研究采用定量构效关系(QSAR)、定量跨读构效关系(q-RASAR)、混合ARKA和ARKA-RASAR四种建模策略,结合梯度提升回归(GB)、极端随机树(ET)等八种机器学习算法,对317个口服斜率因子(OSF)和263个吸入斜率因子(ISF)数据进行建模。关键技术包括:1) 基于Toma等报道的致癌性数据集构建log转换特征矩阵;2) 通过多类ARKA框架实现响应范围特异性特征贡献分析;3) 采用PLS建模框架确保方法可重复性;4) 通过多标准决策选取最优堆叠回归模型。
统计结果
OSF数据建模显示,线性支持向量回归(LSVR)以测试集平均绝对误差(MAETest)=0.907表现最优,较传统QSAR提升约18%。ISF预测中岭回归(RR)以MAETest=0.827领先,验证了ARKA框架通过划分K组响应范围优化特征权重的有效性。
环境意义
模型成功预测了外部验证集的致癌状态,其创新性体现在:1) 突破传统QSAR对小数据集(描述符/样本比<5:1)的维度诅咒;2) 通过q-RASAR整合结构特征与近邻相似度信息;3) ARKA-RASAR模型首次实现内部验证与外部预测性能同步提升。
结论与展望
该研究建立的NAM框架兼具监管可接受性与科学严谨性:PLS建模符合OECD原则,机器学习堆叠增强预测鲁棒性。特别值得注意的是,ARKA-RASAR模型通过响应区间特异性分析,使特征贡献解释精度提升23%,为环境污染物致癌风险分级管理提供量化工具。未来可扩展应用于持久性有机污染物(POPs)的多终点联合风险评估,推动"减量-优化-替代"(3R)原则在环境毒理学中的实践。
生物通微信公众号
知名企业招聘