基于集成机器学习与分子描述符的法医化合物保留时间预测研究及其在毒理学中的应用
【字体:
大
中
小
】
时间:2025年10月08日
来源:Journal of Chromatography B 2.8
编辑推荐:
本文系统比较了随机森林(RF)、极端随机树(Extra Trees)、XGBoost和LightGBM四种集成机器学习算法,通过RDKit基础描述符与Mordred描述符+摩根指纹(Morgan fingerprints)扩展特征集,对229种法医毒理学相关化合物进行保留时间(RT)预测。研究表明扩展特征空间可显著提升预测精度(最佳模型R2=0.718,RMSE=1.23),特征重要性分析揭示拓扑结构与电子性质对RT的关键影响,为法医非靶向筛查与色谱方法开发提供了高效计算工具。
集成机器学习模型在法医化合物保留时间预测中表现出卓越性能,扩展分子描述符组合显著提升预测精度,为复杂基质中的化合物鉴定提供新范式。
本节详述了研究采用的数据集构建、分子描述符计算(使用RDKit和Mordred工具包)与机器学习工作流程。通过严格的训练-测试集划分与超参数优化,系统评估了四种集成算法在两种描述符集上的预测效能。
实验结果表明:扩展描述符集(>2000个特征)训练的模型全面优于基础描述符模型,其中XGBoost表现最佳(R2=0.718, RMSE=1.23)。特征重要性分析证实除疏水性和分子大小外,拓扑指数与电子特性对保留时间具有决定性影响。
本研究突破传统线性QSRR模型的局限,证实集成学习能有效捕捉复杂非线性的结构-保留关系。与同类研究相比,我们的模型在结构多样性数据集上保持高精度,为法医毒理学中的异构体区分和新精神活性物质筛查提供实用解决方案。未来可结合深度学习进一步挖掘三维分子特征的影响。
集成机器学习方法能够从小规模法医化合物数据集中实现高精度RT预测。扩展特征空间(Mordred描述符+摩根指纹)相比基础描述符显著提升预测性能,其中XGBoost与LightGBM表现最为突出。本研究建立的预测框架为法医毒理学的色谱方法开发与非靶向筛查提供了可靠的计算基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号