基于自然语言处理的头颈癌电子健康记录非结构化数据挖掘与临床价值转化研究

【字体: 时间:2025年05月06日 来源:Clinical Oncology 3.2

编辑推荐:

  本研究针对电子健康记录(EHR)中80%的非结构化临床数据难以利用的问题,采用开源医疗自然语言处理工具CogStack,通过两轮监督训练优化SNOMED-CT概念提取性能。最终模型在头颈癌(HNC)患者测试队列中实现中位F1值0.778,50个临床概念达到预设标准,为肿瘤真实世界研究(RWD)提供了高效数据挖掘方案。

  

在数字化医疗时代,电子健康记录(EHR)已成为临床决策的重要支撑,但其中80%的关键信息以非结构化形式(如自由文本的病理报告、门诊记录)存在,传统人工提取方式效率低下且易出错。头颈癌(HNC)作为复杂瘤种,其诊疗数据分散在各类非结构化文档中,严重制约了真实世界研究(RWD)的开展。英国国家医疗服务体系(NHS)虽已全面部署EHR系统,但如何高效提取这些"数据富矿"仍是重大挑战。

针对这一痛点,由Guy's Cancer Cohort委员会批准的研究团队采用开源轻量级自然语言处理(NLP)工具包CogStack,创新性地探索了人工智能在头颈癌数据挖掘中的应用。CogStack核心组件MedCAT整合了双向长短期记忆网络(BiLSTM)和命名实体识别(NER)技术,能自动识别临床文本中的医学术语并映射至SNOMED-CT标准编码。研究团队通过两轮监督训练(共标注500份文档)优化模型性能,并首创概念特异性阈值策略,最终在测试队列中使50个SNOMED-CT概念达到临床可用标准,相关成果发表于《Clinical Oncology》。

关键技术方法包括:1) 基于CogStack平台构建NLP处理流水线,提取HNC患者EHR中的SNOMED-CT概念;2) 采用人工标注的黄金标准数据集进行性能验证;3) 实施两轮监督训练循环,通过MedCATTrainer平台优化BiLSTM模型参数;4) 开发动态阈值算法平衡精确率与召回率;5) 在2010年以来的HNC患者回顾性队列中进行最终验证。

【Evaluation Workflow】
研究设计了三阶段评估流程:基线测试显示19.5%概念因召回率为零无法计算F1值;首轮训练后所有概念均可达标(中位F1值0.692);最终模型在测试队列实现0.750的中位F1值,证明有限训练即可显著提升性能。

【Evaluation Using Threshold of 1 Approach】
采用"至少1次检测即确认"的初始策略,基线中位准确率74.7%。经阈值优化后,最佳阈值策略使测试队列F1值提升至0.778,其中肿瘤分期、放疗剂量等关键治疗参数提取准确率超85%。

【Overview and Strengths of CogStack】
该研究首次验证了NLP在NHS肿瘤数据挖掘中的可行性。MedCAT的独特优势在于:1) 支持SNOMED-CT标准映射;2) 处理否定语境(如"无淋巴结转移");3) 仅需少量标注数据即可微调,远低于大型语言模型(LLM)的训练需求。

【Conclusions】
研究证实CogStack能高效提取50个HNC临床概念,其模块化设计特别适合医疗机构的本地化部署。尽管组织病理学术语提取仍存挑战(F1值低于0.6),但通过持续迭代训练,该工具已成功应用于万例级HNC回顾性研究队列的数据整合。

这项工作的临床价值在于:1) 为肿瘤登记系统提供自动化数据补充;2) 支持精准临床试验入组筛选;3) 建立可扩展的NLP应用范式。作者T. Young等强调,未来需解决术语歧义(如"鳞癌"在不同解剖部位编码差异)问题,并建议将优化后的模型参数反哺至母模型,推动医疗NLP的协同进化。研究获NHS Digital和Wilson + Olegario慈善基金资助,所有数据处理均符合英国信息委员会办公室(ICO)注册要求(Z7034208)。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号