
-
生物通官微
陪你抓住生命科技
跳动的脉搏
数据驱动的头颈癌精准放疗:基于真实世界多模态数据湖的机器学习模型构建与应用
【字体: 大 中 小 】 时间:2025年07月19日 来源:ESMO Real World Data and Digital Oncology
编辑推荐:
本研究针对头颈癌(HNC)放疗中机器学习(ML)模型开发面临的数据获取难题,创新性地构建了包含2895例患者22,170组多模态影像的联邦数据湖,采用XNAT开源平台实现DICOM影像与放疗(RT)数据的标准化整合,通过严格治理框架确保数据安全,显著缩短ML模型开发周期,为精准放疗研究提供高质量真实世界证据(RWE)。
在癌症治疗领域,头颈癌(HNC)患者的放疗效果存在显著个体差异,约50%患者会出现复发或严重毒性反应。传统预测模型依赖有限的剂量体积参数,难以捕捉复杂的生物学响应。更棘手的是,医疗数据的碎片化存储使得机器学习(ML)研究面临巨大障碍——研究人员往往需要耗费数月时间进行数据提取和标注,严重阻碍了精准放疗的发展进程。
英国Guy's Cancer Centre的研究团队在《ESMO Real World Data and Digital Oncology》发表创新解决方案。他们利用开源影像平台XNAT构建了覆盖2895例患者的联邦数据湖,整合了22,170组诊断影像、放疗计划(含CT、结构集、剂量立方体)和临床数据。通过DICOM标准实现多源数据融合,采用双XNAT架构(HN-XNAT存储原始数据,HNRT-XNAT提供功能匿名数据)确保数据安全,并开发自动化管道从PACS系统和治疗计划系统(TPS)提取多模态数据。特别值得注意的是,该研究严格遵循FAIR原则(可发现、可访问、可互操作、可重用),建立了包含2077个类别的数据字典,为头颈癌AI研究树立了新标杆。
关键技术方法包括:1) 使用XNAT开源平台构建符合GDPR的数据湖架构;2) 通过DICOM Supplement 142实现放疗数据匿名化;3) 应用CogStack自然语言处理工具提取非结构化临床数据;4) 建立包含2895例患者的回顾性队列(2011-2023年);5) 开发双重治理体系(GCC伦理框架和HN-XNAT研究访问委员会)。
数据湖构建方面,研究成功整合了来自不同时期三大TPS系统(Monaco、XiO、Eclipse)的放疗数据,尽管早期IMRT病例存在剂量立方体错位等技术挑战,最终仍完整获取了80%患者的放疗数据集(2071/2581)。影像数据覆盖91%患者的CT扫描、67%的MRI和31%的PET-CT,其中20%患者同时具备三种模态影像。临床数据维度尤为全面,包含180万数据点,涵盖人口统计学、共病、治疗细节和毒性反应等关键变量。
在数据治理与访问方面,研究创新性地采用"选择退出"知情同意模式,通过Guy's Cancer Cohort框架(伦理号18/NW/0297)实现高效数据利用,同时建立四级审批流程(科学委员会、放疗发展组、HN-XNAT访问委员会、临床科学计算组)确保合规性。典型数据获取周期缩短至6-8周,较传统方法效率提升显著。
讨论部分强调,该数据湖的价值在于:首次实现头颈癌多模态数据(影像、放疗、临床)的深度整合,特别是包含剂量立方体这一关键放疗特征;通过标准化处理解决了英国医疗系统常见的电子病历更迭导致的ID断裂问题;数据集种族多样性(16%非白人)优于英国国家数据库,有助于减少AI模型偏见。与TCIA现有资源相比,该研究的独特优势在于同时包含DICOM-RT标准数据和治疗计划细节,支持从剂量学角度开展预后建模。
研究团队正推进三项延伸工作:1) 与生物样本库(伦理号23/EE/0005)链接增加数字病理数据;2) 开发肿瘤自动勾画和复发预测模型;3) 通过GitHub公开治理文档促进方法学复制。这些进展将推动头颈癌治疗向更精准、更个性化的方向发展,最终实现"肿瘤控制最大化、毒性反应最小化"的放疗理想目标。该研究不仅为医疗机构建立高质量真实世界数据库提供了可复制模板,其治理框架更对全球医疗AI数据应用具有示范意义。
生物通微信公众号
知名企业招聘