FedCE:一种解决医疗命名实体识别中标签异构问题的对比增强联邦学习方法
《Tsinghua Science and Technology》:FedCE: A Contrast Enhancement Federated Learning Method for Heterogeneous Medical Named Entity Recognition
【字体:
大
中
小
】
时间:2025年11月21日
来源:Tsinghua Science and Technology 3.5
编辑推荐:
本文针对医疗命名实体识别(NER)在联邦学习(FL)环境下因数据标签异构导致的模型发散和收敛困难问题,提出了一种基于对比增强的联邦学习方法FedCE。该方法通过多视图编码器结构捕获全局和局部语义信息,并利用对比学习增强全局知识与局部上下文的互操作性。实验结果表明,FedCE在三个真实临床数据集上显著优于现有技术,且能有效适应不同基础模型,对推动医疗场景下的联邦学习应用具有重要理论价值和实践意义。
在当今数字化医疗时代,电子病历(EMR)系统已成为医疗信息系统发展的核心组成部分,它们能够高效存储和传输临床数据。这些病历不仅记录了患者的现病史、既往史、用药记录等宝贵信息,还凝聚了一线医生的专业智慧。然而,这些包含大量隐私信息的临床记录往往因数据保护要求无法直接集中,导致医疗机构间甚至机构内部形成"数据孤岛",严重制约了医疗数据的应用价值。
面对这一困境,联邦学习(FL)技术应运而生。这种分布式机器学习技术允许多个数据源在不暴露原始数据的情况下进行协同建模和训练,有效规避了数据集中带来的隐私泄露风险。但现实总是比理想复杂——临床医疗文本记录呈现出显著的统计异构性。不同科室、不同医院的医生书写风格各异,导致文本描述存在多样化的语义表达;更棘手的是,各机构标注的实体类型不尽相同,标签体系互不兼容。这种非独立同分布(Non-IID)现象使得传统联邦学习方法在高度统计异构的场景下难以有效支持实体抽取模型的训练。
针对这一挑战,清华大学的科研团队在《Tsinghua Science and Technology》上发表了创新性研究成果。他们提出了一种名为FedCE的对比增强联邦学习方法,专门解决非大规模预训练模型在标签异构联邦学习环境下面临的难题。该方法巧妙地将联邦学习与对比学习相结合,通过两阶段训练策略实现了全局知识共享与本地个性化的平衡。
研究团队首先设计了一个多视图编码器结构,包含联邦视图编码器和本地视图编码器。联邦视图负责捕捉词语或短语的通用表示,而本地视图则专注于学习每个终端特有的上下文语义信息。在认知层面,同一医疗文本的全局视图和本地视图应该具有相似的表示,而不同文本的表示则应显著差异。为了避免在联邦训练阶段过早引入标签信息,研究人员采用对比学习构建自监督损失函数,通过正负样本对训练来增强全局知识与局部语义信息的互操作性。
在具体技术方法上,研究团队采用了统一嵌入模型确保各终端词向量初始表达的一致性,使用RoBERTa-Chinese-Base预训练模型获取词嵌入向量。通过对比多视图编码(CMC)方法构建正负样本对,利用Memory Bank存储样本的视图表示,创建足够大的负样本空间。联邦对比增强训练完成后,各客户端上传联邦视图编码器参数至服务器进行聚合,采用参数平均策略获得全局模型。
第二阶段进行本地任务个性化微调,将多视图编码器输出拼接后输入全连接网络和条件随机场(CRF)解码器,引入标签监督信息,使模型适应各客户端本地数据分布。整个过程通过早停法控制过拟合,使用Adam优化器更新模型参数。
研究使用了八个真实世界数据集,包括三个中医医院数据集(TCM-HN、TCM-HB、TCM-SX)、COVID-19数据集以及四个公开数据集(CMeEE、CMeEE_V2、CCKS2019、CCKS2021)。这些数据集涵盖了呼吸系统疾病、脂肪肝、新冠肺炎等多种疾病,实体类型包括阳性症状、阴性症状、疾病、病程、西药、治疗方法等。数据集按7:1:2比例划分为训练集、验证集和测试集。
在与现有技术的对比实验中,FedCE方法展现出了明显优势。在三个数据集的三方联邦训练中,FedCE在TCM-HN和TCM-SX数据集上的F1分数均优于其他联邦学习基线方法,甚至超过了单独训练的模型性能。在TCM-HB数据集上,FedCE也表现出高度竞争力,F1分数接近单独训练时的性能。
具体而言,与传统联邦学习方法(FedAvg、FedProx、FedAtt、MOON)相比,FedCE在TCM-HN数据集上的F1分数达到0.9719,显著高于FedAvg的0.0179和FedProx的0.2425。在个性化联邦学习方法对比中,FedCE同样优于APFL、pFedMe和Ditto等方法。这一结果证明了FedCE在高度异构医疗数据环境下的有效性和鲁棒性。
研究人员深入分析了影响FedCE性能的关键因素。在池化方法比较中,词向量平均加多层感知器(WA+MLP)在TCM-HN和TCM-SX数据集上表现最佳,而实体词向量平均加MLP(EWA+MLP)在TCM-HB数据集上效果最好。
最大文本长度实验显示,当文本长度超过400字符时,增加长度对TCM-HN和TCM-HB数据集有积极影响,但对TCM-SX数据集产生负面影响。联邦对比增强训练轮数分析表明,不同数据集存在不同的最优训练轮数,过度训练会导致过拟合,验证了早停法策略的必要性。
FedCE展现出良好的基础模型适应性。实验采用双向长短期记忆网络(Bi-LSTM)和Transformer编码器模型的不同组合作为多视图编码器,结果显示各种组合在FedCE框架下均能有效工作,特别是在TCM-HN和TCM-SX数据集上,FedCE训练的多视图编码器普遍优于单独训练的模型。
FedCE的泛化能力通过在新数据集上的测试得到验证。研究团队设计了三种策略:"联邦"策略将新数据集纳入联邦训练;"初始化"策略仅使用接收的全局模型参数作为本地模型初始值;"迁移"策略采用泛化策略训练本地模型。实验结果表明,除CMeEE数据集外,三种策略相比单独训练均有提升。特别是通过泛化策略,模型效率得到提高,CMeEE数据集的性能提升达1.66%。
研究的创新性体现在多个方面:首先,针对现实世界中数据和标签异构的复杂性,提出了一种新颖的个性化联邦学习策略,将自适应个性化技术引入联邦学习框架;其次,设计了独特的模型融合更新机制,在客户端和服务器端集成对比学习方法,提高了异构环境下的模型鲁棒性;最重要的是,这是首次在标签异构场景下演示联邦学习解决非大规模预训练模型发散和不收敛问题的方法。
该研究的实际意义不容忽视。医疗领域的数据隐私要求极为严格,传统的数据集中处理方法面临巨大障碍。FedCE方法使多个医疗机构能够在保护数据隐私和安全的前提下,通过联邦建模提高各自本地模型的性能,促进医疗机构间更有效的协作,为更准确、高效的医疗数据分析做出贡献。
当然,研究也存在一些局限性。FedCE与某些先进命名实体识别方法(如TsERL)相比存在差距,客户端数量和通信瓶颈对模型性能的影响需要进一步探索。此外,医疗实体通常存在稀疏性问题,如何在联邦学习环境下改善稀疏实体的嵌入向量表示是未来需要解决的问题。
展望未来,研究团队计划在多个方向继续深入探索:改进对比的粒度,寻找在实体层面进行信息对比的有效技术;应对稀疏数据集、不同类型数据和数据质量不足的挑战;融入同态加密和本地差分隐私等隐私保护技术,在数据安全性和模型准确性之间寻求平衡。
FedCE方法的提出为医疗领域的联邦学习应用开辟了新途径。通过巧妙结合对比学习和多视图编码,该方法有效解决了标签异构带来的挑战,为在保护数据隐私的前提下实现多机构协同建模提供了可行方案。随着医疗数据量的持续增长和隐私保护要求的日益严格,这类技术将在智慧医疗建设中发挥越来越重要的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号