欧洲乳腺癌患者健康相关生命质量数据整合的机遇与挑战:EORTC BALANCE项目的经验启示

【字体: 时间:2025年08月09日 来源:ESMO Real World Data and Digital Oncology

编辑推荐:

  欧洲乳腺癌患者健康相关生命质量(HRQoL)数据分散且标准不一,EORTC BALANCE项目通过整合6个数据集6500例患者数据,创建了包含142个变量的跨国数据库,为HRQoL预测模型奠定基础。研究揭示了数据隐私、资源限制和异质性等关键挑战,提出了标准化数据模型和建立注册库等解决方案,对推动肿瘤大数据研究具有重要示范意义。

  

在乳腺癌治疗领域,患者健康相关生命质量(Health-Related Quality of Life, HRQoL)已成为超越传统临床终点的重要指标。然而当前HRQoL数据呈现"碎片化"特征——来自荷兰癌症研究所(Netherlands Cancer Institute)的研究团队发现,尽管随机对照试验(RCT)、观察性研究和真实世界数据(RWD)都在收集患者报告结局(PROMs),但这些数据分散在不同机构,测量工具和标准各异,导致单个数据集样本量不足,难以支持机器学习等先进分析需求。这种数据割裂状态严重制约了HRQoL预测模型的发展,而准确预测患者生活质量变化对个性化治疗决策至关重要。

欧洲癌症研究与治疗组织(EORTC)生活质量组的BALANCE项目应运而生,旨在破解这一难题。研究人员通过系统检索EORTC网络、Project Data Sphere等平台,最终整合6个跨国数据集,涵盖6500例乳腺癌患者和超过3万次HRQoL评估。研究采用标准化流程处理数据异质性,将不同来源的142个变量统一编码,并以确诊日期为基准重新校准时间变量。在数据获取环节,项目创新采用"数据处理者"模式,既遵守《通用数据保护条例》(GDPR)要求,又通过数据共享协议(DSA)明确各方权责。

关键技术方法包括:1) 建立包含157个变量的标准化编码手册,参照OMOP通用数据模型;2) 采用分阶段数据合并策略,为每个患者分配唯一ID;3) 使用R软件进行数据清洗和转换;4) 基于EORTC QLQ-C30/BR23量表和临床相关阈值对HRQoL指标进行标准化处理。样本来源涵盖AMAROS试验(1274例)、UMBRELLA观察性研究(3108例)等6个代表性队列。

研究结果部分显示:

"数据识别"环节共筛查25个潜在数据集,最终17个(约2-2.25万患者)因缺乏关键变量、资源限制或法律问题被排除。值得注意的是,来自Vivli和PDS平台的6个数据集因缺失HRQoL评估日期或治疗信息被弃用,凸显出现有数据共享平台的局限性。

"数据获取"过程耗时漫长,平均需18.2个月完成从首次接触到数据接收的全流程。法律审查成为主要瓶颈,每份数据共享合同平均经历3轮审核。最具挑战性的案例耗时32个月,反映出跨国数据流动的合规复杂性。

"数据标准化"面临三大挑战:首先是变量精细度差异,如化疗信息在不同数据集中分别记录为具体方案或简单二元变量;其次是系统性缺失,某些变量在特定数据集中完全未被采集;最后是时间标准化难题,研究创新性地将各时间点转换为"确诊后天数"这一通用指标。

在讨论环节,研究者提出建立HRQoL数据注册系统的构想,类似荷兰的PROFILES注册库,这可通过欧洲健康数据空间(EHDS)框架实现。针对数据隐私争议,建议未来研究考虑联邦学习技术,在保持数据本地化的前提下进行分析。值得注意的是,项目揭示了资源分配的结构性矛盾——虽然支付少量费用补偿数据准备成本能显著提升数据可获得性,但多数资助机构尚未设立此类预算。

这项发表在《ESMO Real World Data and Digital Oncology》的研究具有多重意义:首先,创建了目前最大的跨国乳腺癌HRQoL数据库,为后续预测模型研究奠定基础;其次,探索出的数据整合框架可推广至其他癌种;最后,提出的标准化建议(如核心结局指标集、FAIR数据原则)对提升肿瘤数据质量具有普遍指导价值。随着欧盟EHDS等政策的推进,这项研究为国际医疗数据共享提供了重要实践范本。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号