编辑推荐:
为应对全球医疗诊断人员短缺及临床数据标注难题,研究人员开展临床 NLP 领域研究,构建 DRAGON 基准(含 28 任务、28,824 份标注报告)并对比 LLMs 预训练策略。发现领域特定预训练(DRAGON 2025 测试分数 0.770)优于通用预训练,为自动化数据标注提供新路径。
在医疗领域,全球正面临诊断人员如放射科和病理科医生短缺的严峻挑战,同时医疗影像需求激增,仅 2020 至 2040 年全球癌症发病率预计上升 47%,传统依赖人工的诊断模式难以为继。人工智能(AI)被视为缓解这一压力的关键,但开发具备专家级性能的临床算法离不开大规模高质量标注数据集。临床报告作为重要数据来源,其非结构化特点导致信息提取困难,而人工标注耗时昂贵,亟需自然语言处理(NLP)技术实现高效自动化标注。然而,医疗领域 NLP 研究受限于公开基准和数据集匮乏,尤其非英语等资源较少的语言,相关研究进展缓慢。
为填补这一空白,荷兰 Radboud 大学医学中心等多家机构的研究人员开展了一系列研究,相关成果发表在《npj Digital Medicine》。
研究主要采用以下关键技术方法:
- 数据采集与预处理:从荷兰 5 个医疗中心收集 28,824 份临床报告(含放射、病理等),另从第 6 个中心获取 400 万份报告用于预训练;数据经匿名化处理,保护患者隐私。
- 基准构建:设计 28 项临床相关任务,涵盖分类、回归、命名实体识别等类型,采用 AUROC、Kappa、F1 等临床相关指标评估模型性能。
- 预训练策略对比:对通用领域、领域特定、混合领域三种预训练策略在 5 种 LLM 架构(BERT、RoBERTa、Longformer 等)上进行评估,使用五折交叉验证确保稳定性。
研究结果
基准性能与预训练策略效果
通过实验发现,领域特定预训练的 DRAGON 2025 测试分数达 0.770(95% CI 0.755–0.785),混合领域预训练为 0.756,均显著优于通用领域预训练的 0.734(p<0.005)。其中,RoBERTa large 经领域特定预训练表现最佳,测试分数达 0.819。这表明利用临床报告进行预训练可显著提升模型在医疗任务中的性能。
任务表现差异与挑战
模型在 28 项任务中表现不均,18 项任务达良好或优异水平,如肺结节存在检测(T2)、前列腺体积测量(T19)等,但 10 项任务表现欠佳,如组织起源识别(T6)、病变尺寸提取(T22-T24)。分析显示,标签不平衡、数据规模差异(如 T19 数据量是 T22 的 18 倍)及标记化过程中数值信息丢失是主要原因。
标注可靠性与数据特性
读者研究表明,分类和回归任务的标注者间一致性平均 Krippendorff’s alpha 为 0.859,命名实体识别任务平均 F1 分数 0.860,整体可靠性较高。但复杂任务如组织起源判断(T6,α=0.333)因需专业背景,一致性较低,提示模型性能提升需结合更精细的标注流程优化。
研究结论与讨论
本研究首次构建大规模临床 NLP 基准 DRAGON,涵盖多中心、多模态医疗报告及多样化任务,为算法评估提供了标准化平台。公开的预训练模型和代码(可在 HuggingFace 及 GitHub 获取)降低了研究门槛,推动领域开源协作。实验证实领域特定预训练对医疗 NLP 的重要性,为资源较少语言(如荷兰语)的模型开发提供了范本。
尽管取得进展,研究仍存在局限性:50% 任务数据来自单一学术中心,测试集标签可能存在噪声,且未涵盖生成式任务。未来需进一步优化算法应对标签不平衡、提升数值信息处理能力,并通过联邦学习整合多中心数据,同时探索模型在实时临床决策中的应用。DRAGON 基准的发布标志着临床 NLP 研究进入新阶段,其提供的实证数据和开放资源将加速 AI 在医疗报告分析中的落地,助力缓解全球医疗资源压力,为精准医疗和高效数据管理开辟新路径。