开发一种结合化学结构和近红外光谱数据的混合分子表示方法:以LogP预测为案例研究

《Journal of Chemical Information and Modeling》:Developing a Hybrid Molecular Representation Combining Chemical Structure and MIR Spectral Data: A LogP Prediction Case Study

【字体: 时间:2025年11月06日 来源:Journal of Chemical Information and Modeling 5.3

编辑推荐:

  提出一种融合化学结构与中红外光谱数据的101位分子指纹,通过每个二进制位对应特定官能团和红外吸收峰实现高效特征提取。在1278种化合物logP预测中,支持向量回归模型RMSE为1.443,虽低于传统指纹和商业工具,但具有明确的物理意义和计算优势,为光谱数据驱动的QSAR建模提供了新方法。

  
摘要图片

本文提出了一种新型的混合分子指纹方法,该方法将化学结构与中红外(MIR)光谱数据整合到一个紧凑的101位二进制描述符中。每个位都反映了特定分子子结构的存在以及相应吸收带在定义的MIR区域内的位置。该方法在包含1278种化合物的数据集上进行了logP预测任务的评估。使用这种混合指纹的支持向量回归(SVR)模型的均方根误差(RMSE)为1.443。相比之下,传统的基于结构的指纹方法获得了更低的RMSE:Morgan方法(1024位)为1.056,MACCS方法(166位)为0.995,基于描述符的模型为0.802。商业和开源的logP预测工具的表现也更好,其RMSE分别为1.090(SLogP)、1.098(cLogP)、1.129(QPLogPo/w)和1.156(XLogP3)。尽管预测精度相对较低,但所提出的指纹方法提供了一种独特且计算效率高的方式,将实验光谱证据与化学信息学建模相结合。本研究证明了将MIR数据纳入QSAR工作流程的可行性,并为进一步开发基于光谱的分子表示方法奠定了基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号