
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多中心子宫内膜癌研究中缺失数据的联邦因果发现算法及其应用
【字体: 大 中 小 】 时间:2025年07月25日 来源:Journal of Biomedical Informatics 4.0
编辑推荐:
本研究针对医学领域多中心数据整合中的缺失值偏差问题,提出首个支持异构缺失机制的联邦因果发现算法FED-HC-AIPW。研究人员通过建模各数据源的局部缺失机制,结合IPW(逆概率加权)和混合分布策略,在合成数据和真实子宫内膜癌多中心研究中验证了算法有效性,为临床决策提供了可解释的因果图谱。该成果发表于《Journal of Biomedical Informatics》,突破了传统方法对全局缺失机制的强假设限制。
在医学研究和临床决策中,厘清变量间的因果关系至关重要。然而现实数据常面临两大挑战:一是医疗数据的隐私性导致多中心研究难以直接共享原始数据,二是普遍存在的缺失值会扭曲因果关系的推断。传统因果发现方法要么假设数据完整,要么强求所有数据源遵循统一的缺失机制——这显然与临床实践不符,不同医院因诊疗规范差异可能导致血压数据在A医院因设备故障随机缺失(MCAR),而在B医院仅对高危患者系统记录(MNAR)。
针对这一难题,研究人员开发了名为FED-HC-AIPW的创新算法。该技术首次将因果发现、缺失数据处理和联邦学习三大模块有机结合:首先通过客户端本地学习缺失指标Ri的父节点集合ΠRj,建立个性化缺失机制模型;随后采用基于混合分布(LS加权)的服务器端聚合策略,协调不同样本量和缺失模式的数据源;最终通过自适应逆概率加权(AIPW)校正缺失偏差。在ALARM、WIN95PTS等标准模型测试中,其F1分数较基线方法提升最高达37%,尤其在MNAR场景表现突出。
关键技术路线包含:1)基于d-分离(d-separation)的客户端缺失机制识别;2)结合局部充分统计量的混合权重优化(LS方法);3)汉南-奎因信息准则(HQC)驱动的图结构搜索。在涉及19家欧洲医院的子宫内膜癌研究中,算法成功整合了包括术前细胞学(Cytology)、p53基因状态、淋巴结转移(LNM)等28个异构变量,构建的因果图谱显示:L1CAM通过调控肌层浸润(MyometrialInvasion)间接影响5年生存率(Survival5yr),该路径与临床文献报道一致。交叉验证显示,其预测LNM的AUC达0.82±0.04,显著优于单中心分析。
这项研究的突破性在于三方面:方法论上,首次实现缺失机制异构性下的联邦因果发现;临床上,为子宫内膜癌个性化治疗提供可解释的决策支持;技术上,提出基于局部充分统计量的加权方案(LS),较传统全局加权(GW)提升15%似然分数。未来工作将拓展至非相同变量集场景,并探索潜在混杂因素的处理方案。论文成果为医疗联邦学习提供了新的分析范式,其代码已开源供学术界验证。
生物通微信公众号
知名企业招聘