DataSAIL:避免信息泄露的数据拆分新方案,助力生物医学机器学习模型评估

《Nature Communications》:

【字体: 时间:2025年04月09日 来源:Nature Communications

编辑推荐:

  在生物医学应用的机器学习研究中,信息泄露影响模型评估。研究人员开展 DataSAIL 相关研究,开发出能减少信息泄露的数据拆分算法框架和工具。结果显示其可有效降低训练和测试数据间的泄露,对评估生物医学机器学习模型意义重大。

  在生物医学的机器学习领域,信息泄露就像一颗隐藏的 “定时炸弹”,严重威胁着模型评估的准确性。想象一下,医生依靠一个基于机器学习的疾病诊断模型,但由于训练过程中存在信息泄露,模型看似表现优异,可在实际诊断时却错误百出,这将给患者带来极大风险。当前,许多生物信息学领域依赖机器学习模型,如分子性质预测、药物 - 靶点相互作用预测等。然而,信息泄露问题普遍存在,在蛋白质 - 蛋白质相互作用预测、错义变异有害性预测等研究中,因信息泄露导致模型在测试时表现虚假良好,无法在实际应用中有效推广 。为了解决这一棘手问题,来自德国亥姆霍兹感染研究中心(HZI)、萨尔兰大学等机构的研究人员展开了深入研究。他们开发了 DataSAIL,这是一个多功能的 Python 软件包,旨在减少数据拆分过程中的信息泄露,实现对机器学习模型在实际应用场景下的真实评估。该研究成果发表在《Nature Communications》上,为生物医学机器学习领域带来了新的曙光。
研究人员在研究中用到的主要关键技术方法包括:将数据拆分问题定义为约束优化问题,并证明其为 NP - hard 问题;基于聚类和整数线性规划(ILP)提出启发式求解方法,通过计算数据点间的相似性或距离矩阵,对数据进行聚类,再利用 ILP 求解得到数据拆分方案;使用多种机器学习模型(如随机森林(RF)、支持向量机(SVM)等)进行实验验证。
下面来详细看看研究结果:
  1. 监督学习中的数据拆分:在监督学习中,研究人员将数据集分为训练集、验证集和测试集。DataSAIL 可用于一维和二维数据集,针对不同数据集和拆分任务定义了多种拆分方式,如基于身份的一维拆分(I1)、基于相似性的二维拆分(S2)等。
  2. (k, R, C)-DataSAIL 问题:该问题旨在将 R 维数据集拆分为 k 个折叠,同时最小化数据泄露,并保证数据中 C 个类在各折叠中均匀分布。研究证明此问题是 NP - hard 问题,通过启发式工作流程先聚类数据点,再将聚类作为数据元素求解 (k, R, C)-DataSAIL 问题,最后将聚类分区映射到原始数据点。
  3. 拆分生物分子数据集
    • 一维数据:在 QM8 和 Tox21 等一维数据集上,对比 DataSAIL 的相似性拆分(S1)与其他方法,发现 DataSAIL 的拆分能更好地分离训练和测试样本,具有最低的泄露值 L (π),且较低的 L (π) 值与测试性能下降相关,表明模型在泛化到与训练数据低相似性分子时存在困难。
    • 二维数据:在 LPPDBBind 二维数据集上,DataSAIL 的 I2 和 S2 拆分同样表现出低 L (π) 值,S2 拆分效果尤为突出。与其他拆分方法相比,DataSAIL 的 S2 拆分使模型测试性能显著下降,说明现有结合亲和力预测模型在推断时遇到与训练数据不相似的药物和蛋白质时泛化能力不佳。此外,DataSAIL 还能将分层拆分与信息泄露最小化相结合,在 Tox21 的 SR - ARE 子挑战中,DataSAIL 拆分显著降低了信息泄露,同时也增加了模型泛化的难度,导致所有测试模型性能下降。

  4. 求解器和超参数的影响及可扩展性:研究发现,DataSAIL 中聚类数量 K 对拆分质量和运行时间有影响,K > 150 时拆分质量提升不明显,K ≈ 50 时效果较好。不同 ILP 求解器在质量上表现相似,GUROBI 速度最快。拆分质量主要取决于可接受相对误差 ?,与预期不同的是,未发现与 δ 的依赖关系。在可扩展性方面,随着数据集增大,各算法计算拆分的速度变慢,DataSAIL 虽计算速度最慢,但能在合理时间内处理所有数据集,而 LoHi 在处理 MUV 数据集时 12 小时内未得出结果。
    在研究结论和讨论部分,DataSAIL 为减少相似性引起的信息泄露提供了有效解决方案,能比现有工具更好地进行 OOD 数据拆分。其理论框架虽适用于任意 R 维数据,但目前实现仅支持 R ≤ 2 的实体类型,聚类步骤也存在一定局限性,如依赖特定聚类算法、无法处理不同类型实体间的相似性,二维数据拆分可能导致部分数据丢失。不过,通过添加数据损失惩罚项等方式可缓解这些问题。此外,使用 DataSAIL 评估模型时,需根据模型预期部署场景选择合适的相似性函数 sim,否则可能导致评估结果过于悲观。总之,DataSAIL 为生物医学机器学习模型的数据拆分提供了重要工具,虽有改进空间,但在推动该领域发展方面具有重要意义,有望为未来生物医学研究和临床应用提供更可靠的模型评估支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号