
-
生物通官微
陪你抓住生命科技
跳动的脉搏
BigSolDB 2.0:有机化合物多溶剂溶解度大数据集的构建及其在机器学习预测中的应用
【字体: 大 中 小 】 时间:2025年07月16日 来源:Scientific Data 5.8
编辑推荐:
为解决有机化合物溶解度预测缺乏多样化数据集的难题,Lev Krasnov等研究人员通过整合1595篇文献中的103944个实验数据点,构建了涵盖1448种化合物在213种溶剂中的温度依赖性溶解度数据集BigSolDB 2.0。该研究通过标准化分子结构(SMILES)和溶解度单位(LogS),开发了交互式可视化工具,为QSAR和ML模型开发提供了重要基准,显著推进了药物设计、材料科学等领域的溶剂筛选效率。
在化学合成、药物开发和材料科学领域,溶解度是决定化合物应用价值的核心参数。然而,当前溶解度预测面临两大瓶颈:一是现有数据集多局限于水溶液体系(如AqSolDB),缺乏有机溶剂数据;二是实验测量通量低,难以满足高通量筛选需求。尤其值得注意的是,药物开发中约40%的候选化合物因溶解度不足而失败,凸显了精准预测工具的迫切需求。
针对这一挑战,俄罗斯科学院N.S. Kurnakov普通与无机化学研究所(N.S. Kurnakov Institute of General and Inorganic Chemistry, Russian Academy of Sciences)的Lev Krasnov和Dmitry Malikov团队联合莫斯科国立大学等机构,在《Scientific Data》发表了迄今为止最全面的有机化合物溶解度数据集BigSolDB 2.0。该研究整合了1595篇文献的103944个实验数据点,涵盖1448种化合物在213种溶剂中的温度依赖性溶解度(243-425 K),并通过标准化处理和噪声评估,构建了机器学习友好的基准数据集。
研究采用三项关键技术方法:1)通过Cobalt搜索引擎系统性采集溶解度文献,人工提取摩尔分数数据;2)利用PubChem和RDKit统一分子结构表示(SMILES),并添加FDA药物批准状态等元数据;3)基于溶剂密度温度曲线将溶解度转换为LogS(mol/L)单位,确保数据分布适合ML建模。
数据集包含两个核心表格:主表记录化合物SMILES、温度、溶剂名称及三种溶解度单位(摩尔分数、mol/L、LogS),辅表提供溶剂密度校正数据。如图2所示,溶解度分布呈现典型长尾特征,约50%数据点LogS<-1,而乙醇、水、乙酸乙酯是出现频次最高的溶剂。

通过三重人工校验消除数据提取错误:1)剔除摩尔分数>1的异常值;2)校正溶剂沸点以上的可疑温度记录;3)对比不同文献对同一溶质-溶剂对的测量差异(RMSE=0.39 logS)。值得注意的是,聚乙二醇(PEG)等聚合物溶剂因结构复杂性未进行SMILES转换,体现了数据处理的严谨性。
该研究的创新性体现在三方面:1)首次实现大规模有机溶剂溶解度数据的机器可读化;2)开发的交互式检索工具(https://bigsoldb.streamlit.app/)支持结构式搜索;3)为溶剂筛选算法(如COSMO-RS)提供验证基准。例如,近期研究已利用该数据集开发出融合图神经网络(GNN)和分子描述符的混合预测模型,在非水体系溶解度预测中R2达到0.82。
结论部分强调,BigSolDB 2.0通过解决数据稀缺性和异质性难题,为数据驱动的溶解度预测开辟了新途径。未来可通过实验室协作进一步扩展数据集,特别是在超临界流体等特殊溶剂体系。这项研究不仅加速了药物制剂开发中的溶剂优化流程,也为材料科学中的结晶工艺设计提供了关键数据支持。
生物通微信公众号
知名企业招聘