
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自然语言处理的儿童肿瘤症状性不良事件识别:临床研究者的跨学科实践指南
【字体: 大 中 小 】 时间:2025年08月10日 来源:JMIR Bioinformatics and Biotechnology CS2.9
编辑推荐:
本研究针对儿童肿瘤治疗中症状性不良事件(如恶心、呕吐等)难以从非结构化电子病历中系统识别的问题,通过构建跨学科团队开发自然语言处理(NLP)模型,建立包含480万临床笔记的数字实验室,验证现有cTAKES模型局限性,为临床AI研究提供可复制的协作框架。
在儿童肿瘤治疗领域,化疗引发的恶心、呕吐、便秘等主观症状性不良事件(symptomatic adverse events)长期面临数据提取难题——这些信息散落在非结构化的临床笔记中,人工提取既耗时又易出错。更严峻的是,治疗毒性导致的剂量调整可能影响患儿长期生存,但现有自然语言处理(NLP)模型如cTAKES对儿科场景的识别准确率不足。
美国费城儿童医院(Children's Hospital of Philadelphia)的跨学科团队给出了创新解决方案。由临床肿瘤专家Clifton P Thornton与数据科学家组成的团队,通过构建包含18,408名患者、480万临床笔记的数字实验室,系统评估了NLP技术在识别五种高发毒性事件中的应用潜力。这项发表在《JMIR Bioinformatics and Biotechnology》的研究揭示:现有模型在症状严重度分级上表现欠佳,亟需开发定制化算法。
研究采用三大关键技术:1)基于HIPAA合规的Arcus数字实验室平台处理海量电子健康记录(EHR);2)通过SQL和R语言构建关系型数据库,整合化疗给药时间、实验室值等结构化数据;3)迭代式临床笔记标注流程,结合CTCAE标准建立标注指南,并计算加权Cohen kappa评估标注者一致性。
【基础设施与数字实验室构建】
团队耗时14个月建立包含450万次给药记录的关系型数据库,发现EHR数据存储格式与临床显示存在显著差异,需定制代码筛选最新版笔记。验证环节通过随机抽查病历确认数据准确性,凸显临床与数据科学协作的必要性。
【目标笔记识别策略】
针对不同毒性设计特异性筛选逻辑:如 vincristine 给药14天内笔记筛查神经毒性,高致吐化疗7天内笔记追踪呕吐事件。数据科学家开发了基于体表面积(BSA)的剂量过滤算法,并排除非相关专科记录,最终提取约300份笔记进行标注训练。
【标注验证与模型评估】
经过三轮100份笔记的独立标注与指南修订,发现CTCAE标准在回顾性数据应用中存在局限性——如按需给药记录缺失影响严重度判断。基线cTAKES模型经人类表型本体(HPO)增强后,F1-score仍不理想,证实需开发儿科特异性NLP模型。
这项研究的意义远超技术层面:它绘制了一份详实的"临床研究者AI实践路线图"。团队总结的五大挑战——从数据仓库与EHR的术语差异,到标注过程中的临床语境缺失,均为后续研究提供了规避路径。更关键的是,该框架证明:唯有临床专家深度参与数据标注和算法训练,才能开发出真正契合医疗场景的AI工具。随着Transformer等大语言模型的发展,这项研究奠定的跨学科协作模式和数字基础设施,将为真实世界证据生成开辟新范式。
生物通微信公众号
知名企业招聘