
-
生物通官微
陪你抓住生命科技
跳动的脉搏
合成数据助力癌症研究:英格兰国家癌症登记系统的隐私保护协作分析模型
【字体: 大 中 小 】 时间:2025年06月07日 来源:Therapeutic Innovation & Regulatory Science 2
编辑推荐:
这篇综述介绍了利用合成数据(Simulacrum)解决敏感医疗数据(如英格兰国家癌症分析系统CAS)访问难题的创新协作模型。通过合成数据预研、编程代码开发及真实数据验证的三阶段流程,该模型将代码开发至数据发布(CDDR)周期缩短至平均2.3个月,显著提升研究效率,同时严格遵守GDPR隐私规范,为真实世界数据(RWD)应用提供了可扩展的解决方案。
真实世界数据(RWD)在推动药物研发和优化医疗服务的价值已获全球监管机构认可,但患者隐私保护法规(如欧盟GDPR)导致敏感数据访问困难。英格兰国家癌症分析系统(CAS)整合了覆盖98%癌症患者的登记数据、治疗记录(如SACT化疗数据集)和生物标志物检测数据(CAS-MDx),但其使用受限于严格的治理框架。
CAS数据库
CAS由英国国家医疗服务体系(NHS)下属国家疾病注册服务(NDRS)管理,包含肿瘤登记(NCRD)、放疗(RTDS)、住院(HES)和死亡率(ONS)等多源数据。
Simulacrum合成数据集
通过贝叶斯网络生成的Simulacrum模拟了CAS的结构与统计特征(如边际分布和时间序列),包含NCRD、SACT等核心数据集变量,但排除直接标识符。其开发团队Health Data Insight(HDI)与IQVIA合作,确保数据实用性同时满足隐私要求。
协作模型三阶段
效率提升
18个项目平均CDDR时间为2.3个月,其中71%耗时集中于代码开发阶段。12个项目仅需单次代码运行即可完成,复杂项目(如涉及多变量联合分析)需最多3次迭代。
研究多样性
项目涵盖前列腺癌、血液肿瘤等高发癌种(图4a),涉及治疗模式、医疗资源利用(HCRU)等分析类型,并逐步整合新型数据源如CAS-MDx(图4b)。
Simulacrum虽无法完全复现高维联合分布(如特定癌症分期+年龄+性别的亚组),但显著降低了研究门槛。模型局限性包括合成数据与真实数据的时效性差异,以及未量化项目复杂度对周期的影响。未来需进一步验证Simulacrum的保真度,但其协作框架已为RWD应用提供标准化范式。
该模型通过合成数据桥接研究与隐私需求,将传统数月的数据访问流程压缩至数周,尤其适合资源受限的研究场景。其经验可为其他敏感医疗数据库(如基因组数据)的治理提供参考,加速循证医学发展。
生物通微信公众号
知名企业招聘