编辑推荐:
头颈部癌症(HNC)中约 10% 为罕见类型,因组织学或解剖位置特殊,临床数据仓库(CDW)或可助力研究。研究人员开发多模态算法,整合 ICD-10、ADICAP 编码及 NLP 处理病理报告自由文本,识别 4515 例罕见 HNC 患者,多源数据下灵敏度 91%、特异性 95%,为罕见癌症研究提供新路径。
在癌症的世界里,头颈部癌症(Head and Neck Cancers, HNC)如同一个复杂的 “拼图”,其中约 10% 的罕见类型因其独特的组织学特征或特殊的解剖位置,宛如隐藏在迷雾中的 “神秘岛屿”,难以被精准识别和深入研究。这些罕见 HNC 患者的自然病程和预后与常见的上消化道鳞状细胞癌(SCC)差异显著,然而,由于相关研究多为小规模、异质性且可能存在偏倚的研究,同时缺乏随机对照临床试验,其治疗策略往往基于较低水平的医学和科学证据,临床指南也相对匮乏。如何从海量的医疗数据中精准筛选出这些罕见患者,构建大规模队列,成为解锁其诊疗奥秘的关键难题。
为了攻克这一难题,巴黎公立医院集团(Assistance Publique–H?pitaux de Paris, AP-HP)的研究人员开展了一项具有创新性的研究。该研究成果发表在《ESMO Real World Data and Digital Oncology》,旨在开发一种多模态算法,利用医院临床数据仓库(Clinical Data Warehouse, CDW)中的电子健康记录(Electronic Health Records, EHR)数据,精准识别罕见 HNC 患者队列,为罕见癌症的研究和诊疗提供新的思路和方法。
研究人员采用了多种关键技术方法来开展这项研究。首先,研究基于 AP-HP 的 CDW 数据,该数据库包含 38 所大学医院的 1140 万患者数据。研究人员整合了多种数据来源,包括国家医院索赔数据库(PMSI)中的结构化数据,如国际疾病分类第十版(International Classification of Diseases, 10th revision, ICD-10)编码,以及患者电子健康记录中的临床数据,如病理报告和多学科会议(MDM)报告。通过自然语言处理(Natural Language Processing, NLP)算法从病理报告中提取法国细胞和病理解剖计算机科学发展协会(ADICAP)编码,并利用正则表达式从自由文本中检索关键数据(如癌症的组织学类型和部位)。此外,研究还通过一名 HNC 医学专家和资深数据科学家合作开发的算法,对数据进行处理和分析,并使用由专家手动注释的 100 例病例组成的验证集对算法性能进行评估。
研究背景
头颈部癌症中,大多数为上消化道鳞状细胞癌,其主要危险因素包括吸烟、饮酒和口咽部人乳头瘤病毒感染。而罕见 HNC 在组织学和 / 或位置上较为特殊,发病率低,每年欧洲约有 49 例。由于其罕见性,相关研究有限,缺乏明确的临床指南,治疗策略的科学证据水平较低,因此构建大规模罕见 HNC 患者队列具有重要意义。临床数据仓库的发展为这一目标提供了机会,但传统的结构化数据如 ICD-10 编码识别癌症状态的灵敏度较低(50%-60%),而电子健康记录中的自由文本包含大量关键信息,因此结合自由文本和结构化数据成为潜在的解决方案。
材料与方法
研究开展了一项多中心横断面研究,使用 AP-HP CDW 中的医院电子健康记录数据。数据来源包括 PMSI 的索赔数据和患者电子健康记录中的临床数据(病理报告和 MDM 报告)。通过 ICD-10 编码和 ADICAP 编码识别 HNC 患者,并从病理报告中提取罕见 HNC 的部位和组织学变量。构建多模态算法,整合 ICD-10 编码、ADICAP 编码和 NLP 处理的自由文本数据,识别罕见 HNC 患者队列,并通过专家注释的验证集评估算法性能。
结果
在 333,852 例癌症患者中,基于 ICD-10 和 ADICAP 编码识别出 9,141 例 HNC 患者。多模态算法使用 ICD-10 或 ADICAP 编码或 NLP 处理的自由文本,将 4,515 例患者分类为罕见 HNC 患者,其中 2,168 例由至少两个数据源识别。当依赖多个数据源时,算法显示出 91% 的灵敏度和 95% 的特异性,与罕见部位识别的 43% 相比,罕见组织学识别的阳性预测值为 76%。
讨论
该研究首次开发并评估了一种使用电子健康记录数据识别罕见 HNC 患者的多模态算法。结果表明,结合多模态数据源(ICD-10 编码、ADICAP 编码和自由文本病理报告)可提高患者识别的准确性,“整合” 罕见 HNC 患者队列的算法在依赖至少两个数据源时,灵敏度达 91%,特异性达 95%,显著优于单一数据源。然而,研究中罕见 HNC 患者比例较高,可能与研究机构为罕见癌症参考中心及分类标准差异有关。此外,算法性能受电子健康记录数据质量和完整性影响,各数据源均有局限性,如 ICD-10 编码仅用于住院患者、存在编码错误,ADICAP 编码和 NLP 处理的自由文本依赖病理报告的可用性等。未来研究可扩大验证范围,探索自然语言处理技术的进步,如大型语言模型和基于深度学习的模型,以提高自由文本信息检索的准确性。同时,整合更多数据源如 MDM 报告,可能进一步提升算法性能。
结论
该研究证明了基于多模态电子健康记录的方法在临床数据仓库中识别罕见 HNC 患者的可行性和实用性,结合自由文本和结构化数据可提高队列识别的可靠性。这一方法为罕见癌症的研究提供了新的工具和思路,有助于更好地理解和管理罕见癌症,但需要持续投资于数据质量和处理技术的改进。