基于学习参数先验的非共位数据协变量偏移缓解方法(FIcsR):提升碎片化医疗健康数据模型泛化能力

【字体: 时间:2025年10月12日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出Fragmentation-Induced covariate-shift Remediation(FIcsR)方法,通过最小化数据片段与基准验证集间的f-散度(f-divergence)并结合Fisher信息矩阵近似计算,有效解决分布式训练中因数据碎片化引发的协变量偏移(Covariate Shift)问题。该方法在40+数据集上验证,跨批次和折叠场景的准确率分别提升5%和10%,为医疗健康(如EHR数据整合)、金融风控等高风险领域提供可靠模型验证方案。

  
Development
Notational setup and definitions
设训练样本x从完整训练集X中抽取,X被划分为k个批次{B1?Bk}。X服从训练数据分布P(X),每个批次存在对应的网络参数分布P(θBi)。f?(θ)表示对训练数据的拟合模型(即学习器),与分批次无关。
Benchmarks and state-of-the-art
现有研究较少涉及协变量偏移缓解问题,多数工作通过统计优化方法进行权重估计[8,14,43]。监督学习中的经验风险最小化(Empirical Risk Minimization)在训练和测试特征分布不同的协变量偏移场景下失效[38,44]。为缓解偏移,[27,40,42,50]采用权重调整方法,为每个训练样本分配重要性权重(Importance Weighting, IW):w(x)=ptst(x)/ptr(x)。
Experimental setup
我们在碎片化诱导的协变量偏移场景及标准协变量偏移基准测试中,验证FIcsR相对于多种基线设置的有效性。
Evidencing covariate shift induction due to batching
No-covariate-shift datasets:
从表3可观察到,数据碎片化导致平均准确率和批次准确率较标准交叉验证基线(BL1)下降。这论证了碎片化操作诱导的协变量偏移。结果显示在20、10和2批次分割下,平均准确率下降超过36%。
Standard-covariate-shift datasets:
上述模式在标准协变量偏移数据集中也保持一致,然而——(后续内容因原文截断未完整呈现)
Conclusions
我们提出FIcsR方法,用于缓解因数据集被分割为多个子集(批次或折叠)进行交叉验证而引发的碎片化诱导协变量偏移。FIcsR作为交叉验证的核心工具,适用于大规模分布式系统中超参数调优,其中完整训练集可能无法同时同地获取。总结而言,FIcsR:
  1. 1.
    实现对标准偏移和诱导偏移的双重缓解;
  2. 2.
    提升——(后续内容因原文截断未完整呈现)
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号