一个用于基于专有数据训练的预测模型协同开发的简单框架
《Journal of Chemical Information and Modeling》:A Simple Framework for Collaborative Development of Predictive Models Trained on Proprietary Data
【字体:
大
中
小
】
时间:2025年11月20日
来源:Journal of Chemical Information and Modeling 5.3
编辑推荐:
共享预测模型构建方法及在AMES致突变性测试中的应用,通过逻辑组合与机器学习算法集成多公司模型,在保证化学结构机密性的前提下提升预测性能。
在当今的药物研发和化学研究领域,随着实验数据的快速增长,构建高质量的预测模型已成为提升研发效率和安全性的重要工具。然而,这些模型的开发往往依赖于大量训练数据,而这些数据中可能包含公司内部的敏感信息,如化学结构和实验结果。因此,如何在保护数据隐私的前提下实现跨组织的合作建模,成为了一个关键问题。本文介绍了一种简单而有效的建模方法,它允许在不泄露任何训练数据的情况下共享预测模型,并通过逻辑规则和机器学习算法构建集成模型,从而提升模型的预测性能和适用范围。
这种方法的核心在于,各参与公司使用自己的内部数据构建预测模型,但不共享原始数据。所有模型在构建过程中都遵循相同的流程和标准,包括数据预处理、特征选择和模型训练。随后,这些模型以“保密模型”的形式被收集并用于构建集成模型。保密模型仅保留了模型的参数信息和描述符的统计特征,如均值和标准差,而不包含任何化学结构信息。这种设计确保了数据的保密性,同时也使得模型的构建过程可以被审计,从而满足严格的合规要求。
在实际应用中,这种方法被用于构建一个针对AMES致突变性测试的集成模型。AMES测试是一种常用的体外细菌生物检测方法,用于评估化学物质是否具有致突变性。四个制药和化学公司(BASF、Merck Healthcare KGaA、Novartis 和 Sanofi)各自使用内部数据构建模型,并将其以保密模型的形式共享。通过将这些模型进行集成,最终得到了具有更好预测性能的模型,其在不同应用场景中表现出更高的灵敏度和特异性。
通过系统的验证实验,研究团队对所有模型的预测性能进行了评估。这些实验包括内部验证和外部验证,其中外部验证数据集(CVD)用于评估模型在新数据上的泛化能力。结果显示,集成模型在整体预测性能上优于个体模型,特别是在识别非致突变性化合物和提高模型的适用范围方面表现尤为突出。此外,不同的集成策略(如逻辑规则和机器学习方法)可以根据实际需求进行调整,以优化模型的灵敏度和特异性。例如,逻辑“或”模型在早期筛选中表现出较高的灵敏度,而多数投票模型则在更精确的预测方面更具优势。
在模型构建过程中,各公司对训练数据进行了严格的筛选和清洗,以确保数据的质量和一致性。这些步骤包括去除不完整或混淆的记录,如无机物、有机金属化合物、生物制剂和混合物等,并对化合物的结构进行标准化处理。通过这种方式,模型能够更好地捕捉化学空间中的关键信息,同时避免因数据重叠而导致的偏差。
为了确保模型之间的兼容性和可审计性,研究团队采用了一种基于公开源软件的流程,所有操作都可以被跟踪和验证。这种方法不仅降低了技术门槛,还使得较小规模的合作项目能够以较低的成本实现模型共享。与传统的联邦学习方法相比,这种方法不需要复杂的计算基础设施或数据治理政策,因此更适合资源有限或对数据隐私要求较高的场景。
此外,研究团队还利用Flame软件提供的可视化工具,对模型的预测结果进行了深入分析。通过主成分分析(PCA)等技术,可以直观地展示模型在化学空间中的覆盖范围,并帮助识别可能超出模型适用范围的化合物。这种可视化不仅有助于模型的优化,还为监管机构提供了透明的评估依据。
总体而言,这种方法在多个方面展现了其优势。首先,它能够在不泄露任何敏感数据的前提下实现跨组织的建模合作,为制药和化学行业提供了一种安全且高效的解决方案。其次,通过集成多个模型,可以显著提升预测性能,尤其是在识别具有潜在致突变性的化合物方面。最后,该方法具备高度的灵活性和可扩展性,可以根据不同的应用场景选择合适的集成策略,并通过简单的工具实现模型的本地应用。
这一研究不仅为药物研发提供了新的思路,也为其他需要数据共享但又面临隐私保护挑战的领域提供了借鉴。通过这种方式,企业和研究机构可以在不牺牲数据安全的前提下,共同提升模型的预测能力和适用范围,从而推动科学研究和工业应用的进一步发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号