分布式隐私数据下的条件平均处理效应估计新方法:数据协作双重机器学习(DC-DML)的创新与应用

【字体: 时间:2025年07月22日 来源:Expert Systems with Applications 7.5

编辑推荐:

  为解决分布式数据中隐私保护与因果推断的难题,研究人员提出数据协作双重机器学习(DC-DML)方法,通过构建隐私保护融合数据实现条件平均处理效应(CATE)的半参数估计。研究通过仿真验证了该方法在避免迭代通信的同时,性能优于现有方法,为跨机构医疗数据分析和政策评估提供了高效工具。

  

在医疗健康和政策评估领域,准确估计干预措施对不同个体的差异化效果(条件平均处理效应,CATE)至关重要。然而,当数据分散在不同机构且包含敏感信息时,传统集中式分析方法面临隐私泄露风险。现有联邦学习方法虽能保护数据隐私,但存在通信效率低、模型误设敏感性高等局限。这一矛盾在新冠疫情追踪、跨医院疗效分析等场景中尤为突出,亟需一种既能保护数据隐私又能保持统计效力的创新方法。

针对这一挑战,中国科学院数学与系统科学研究院的研究团队在《Expert Systems with Applications》发表研究,提出数据协作双重机器学习(DC-DML)框架。该方法通过三阶段协作:首先各机构将原始数据转化为降维的中间表示;其次分析师基于分布式表征构建全局模型;最后各机构利用返回参数完成本地化估计。关键技术包括:1)基于主成分分析(PCA)和局部保持投影(LPP)的隐私保护降维;2)双重机器学习(DML)框架下的半参数估计;3)基于自助法(bootstrap)的协作表征构建。通过理论证明,该方法在满足Neyman正交性条件下,可实现与集中式分析相当的估计效率。

研究团队通过三类实验验证DC-DML的优越性。在仿真数据中,当不同机构数据分布存在偏差时(如图3所示),DC-DML的CATE估计均方根误差(RMSE)较个体分析降低42%。半仿真实验中,使用婴儿健康数据集时,其表现超越联邦因果推断(FedCI)等5种对比方法,在潜在混杂因素存在时仍保持稳健。真实金融数据测试显示,即使参与方样本量差异达10倍,DC-DML的ATE估计偏差仍控制在5%以内(图5-6)。

核心创新在于:1)首次实现分布式数据下的半参数CATE估计,通过θ(xi)=[1,xiT]β的线性扩展,克服了传统参数模型误设风险;2)提出非迭代式知识累积机制,允许跨时段、跨机构协作,如图1所示的知识库构建流程;3)理论证明协作表征Gk能保留原始数据90%以上的有效信息(定理2)。在医疗场景下,这意味着医院间可共享治疗效果模型而非原始病历,既保护患者隐私,又能提升罕见病疗效评估精度。

讨论部分指出,当协作表征维度mˇ=m时,DC-DML与集中式分析的渐近等价性(公式8-10)。但研究也承认局限性:对非线性CATE的适应性不足,且依赖治疗分配的覆盖假设。未来工作将探索自动确定最优mˇ的算法,并扩展至纵向数据场景。该成果为构建跨机构医疗AI协作平台提供了方法论基础,特别适用于需同时满足《通用数据保护条例》(GDPR)和临床研究规范的跨国研究。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号