用于群体目标洗脱顺序预测的机器学习:以取代黄酮类化合物为例的研究

《Journal of Chemical Information and Modeling》:Machine Learning for Group-Targeted Elution Order Prediction: Substituted Flavones as a Case Study

【字体: 时间:2025年11月19日 来源:Journal of Chemical Information and Modeling 5.3

编辑推荐:

  研究通过构建两个植物代谢物数据集,训练了四种机器学习模型预测黄酮类化合物取代基对色谱保留行为的影响,发现神经网络模型在保留顺序预测中表现优异,线性回归在间接预测保留时间时效果更佳,并验证了大规模统一数据集的优越性。

  
摘要图片

预测结构相近的类似物和异构体的洗脱顺序是植物代谢物鉴定过程中的关键步骤。应用机器学习(ML)通过建立结构与保留时间之间的关系来自动化峰值注释,是一种高效的方法。在本研究中,训练了四种机器学习模型来预测含有羟基和甲氧基取代基的黄酮类衍生物对的洗脱顺序。此外,还通过线性回归和线性插值方法从模型得分间接估算了保留时间。数据集分别包含51种化合物(1275对)和48种化合物(356对),这些数据来自现有的文献资料。利用这些数据集探索了不同的模型训练策略,并进行了内部和外部验证。研究采用了一种专门设计的分子指纹图谱来编码黄酮骨架及其取代基的结构特征,以优化这类广泛存在的植物化学物质的表示方法。基于神经网络的排名模型使用了二元交叉熵(BCE)和边际排名(MR)损失函数,并采用了简化版的分子指纹图谱;而逻辑回归模型则使用了包含取代基间相互作用的浓缩(20位)和扩展(92位)指纹图谱。洗脱顺序预测的成对错误率大多低于10%,证明了该模型在反相液相色谱(LC)条件下(使用乙腈梯度)的可靠性能。线性回归模型的表现略优于其他模型,这一结果通过Friedman检验和Wilcoxon检验得到了统计支持。尽管整体性能指标相当,但使用大型统一数据集比使用零散的文献数据更为合适。通过可视化模型权重,分析了羟基和甲氧基在不同位置上的正负影响及其对色谱保留时间的交互作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号