
-
生物通官微
陪你抓住生命科技
跳动的脉搏
开发一种结合化学结构和近红外光谱数据的混合分子表示方法:以LogP预测为案例研究
《Journal of Chemical Information and Modeling》:Developing a Hybrid Molecular Representation Combining Chemical Structure and MIR Spectral Data: A LogP Prediction Case Study
【字体: 大 中 小 】 时间:2025年11月06日 来源:Journal of Chemical Information and Modeling 5.3
编辑推荐:
提出一种融合化学结构与中红外光谱数据的101位分子指纹,通过每个二进制位对应特定官能团和红外吸收峰实现高效特征提取。在1278种化合物logP预测中,支持向量回归模型RMSE为1.443,虽低于传统指纹和商业工具,但具有明确的物理意义和计算优势,为光谱数据驱动的QSAR建模提供了新方法。

本文提出了一种新型的混合分子指纹方法,该方法将化学结构与中红外(MIR)光谱数据整合到一个紧凑的101位二进制描述符中。每个位都反映了特定分子子结构的存在以及相应吸收带在定义的MIR区域内的位置。该方法在包含1278种化合物的数据集上进行了logP预测任务的评估。使用这种混合指纹的支持向量回归(SVR)模型的均方根误差(RMSE)为1.443。相比之下,传统的基于结构的指纹方法获得了更低的RMSE:Morgan方法(1024位)为1.056,MACCS方法(166位)为0.995,基于描述符的模型为0.802。商业和开源的logP预测工具的表现也更好,其RMSE分别为1.090(SLogP)、1.098(cLogP)、1.129(QPLogPo/w)和1.156(XLogP3)。尽管预测精度相对较低,但所提出的指纹方法提供了一种独特且计算效率高的方式,将实验光谱证据与化学信息学建模相结合。本研究证明了将MIR数据纳入QSAR工作流程的可行性,并为进一步开发基于光谱的分子表示方法奠定了基础。
生物通微信公众号
知名企业招聘