《JMIR Medical Informatics》:Multimodal Prediction of Renal Tumor Malignancy From Radiology Reports and Structured Electronic Health Records: Retrospective Cohort Study
编辑推荐:
背景:术前准确预测肾肿瘤恶性程度对于指导决策和减少过度治疗至关重要,因为相当比例的肾脏肿块被证明是良性的。尽管放射学评估和结构化电子健康记录(EHR)数据被常规使用,但许多肿瘤特异性描述仍嵌入在自由文本放射学报告中,由于提取困难而未被充分利用。目的:本研究旨在
背景:术前准确预测肾肿瘤恶性程度对于指导决策和减少过度治疗至关重要,因为相当比例的肾脏肿块被证明是良性的。尽管放射学评估和结构化电子健康记录(EHR)数据被常规使用,但许多肿瘤特异性描述仍嵌入在自由文本放射学报告中,由于提取困难而未被充分利用。目的:本研究旨在开发并评估一种多模态管道,该管道整合结构化EHR变量与来自计算机断层扫描(CT)放射学报告的自然语言处理特征,包括大语言模型(LLM)提取的异常特征和基于transformer的报告嵌入,以改善恶性程度预测。方法:研究人员进行了一项回顾性队列研究,使用了佛罗里达大学健康综合数据存储库中观察性医疗结果合作伙伴关系映射的EHR数据,时间跨度为2011年12月至2024年8月。纳入成人肾肿瘤患者,要求其具有与肾脏肿块一致的纵向诊断记录,以及至少1份术前肾脏CT报告;最终良性或恶性状态作为结局。结构化特征包括人口统计学、合并症、药物、生命体征和实验室测量值。从最近术前CT报告中,一个本地部署的LLM分离出肾脏特异性发现并提取异常特征。评估了4个本地部署的LLM与500份报告的人工标注。肾脏特异性文本使用预训练的生物医学transformer模型进行编码,包括放射学双向编码器表示来自transformer(BERT)变体。研究人员评估了单模态基线和多模态早期、中期和晚期融合策略。模型开发使用80%训练分区内的5折交叉验证;每个折特定模型在同一独立20%保留测试集上进行评估,性能报告为5次保留测试评估的均值和标准差。主要指标是受试者工作特征曲线下面积(AUC)。结果:最终队列包括967名患者(n=712,73.6%恶性)。在提取评估中,Qwen2.5-32B达到了88.3%的总体准确率,提取成功率为100%,并被选用于下游特征生成。在单模态模型中,结构化临床变量模型实现了0.758的AUC(标准差0.012),使用放射学BERT的肾脏特异性文本实现了0.746的AUC(标准差0.058),单独异常特征实现了0.716的AUC(标准差0.015)。多模态融合模型比单模态模型实现了更高的描述性性能。早期融合实现了最高的AUC(均值0.813,标准差0.008)和F1分数(均值0.809,标准差0.030),而晚期融合实现了0.805的AUC(标准差0.016)。消融和可解释性分析表明,结构化临床变量和肾脏特异性文本嵌入提供了互补的预测信息。结论:在描述性比较中,将非结构化放射学报告文本与结构化EHR变量整合比单模态方法实现了更高的平均预测性能。多模态融合,特别是结合放射学BERT衍生的肾脏特异性文本嵌入的早期融合,实现了最强的区分能力,提示自然语言处理赋能的多模态EHR管道在术前风险分层中具有潜在价值。
**论文解读:基于多模态电子健康数据和放射学报告的肾肿瘤恶性程度预测研究**
**研究背景与问题**
肾癌(KC)是美国第七大常见癌症,其中肾细胞癌(RCC)约占90%。早期肾癌常无症状,超过半数病例在腹部影像检查中偶然发现。尽管手术切除(部分或根治性肾切除术)是主要治疗手段,但近25%的小肿瘤术后证实为良性,导致不必要的手术暴露患者于并发症风险而缺乏治疗获益。因此,改进术前风险分层至关重要。横断面成像(尤其是计算机断层扫描(CT))在肾脏肿块诊断中发挥核心作用,但基于影像的模型(如影像组学或深度学习)通常需要原始影像数据和专业计算基础设施,在资源受限的医疗环境中可扩展性有限。相比之下,电子健康记录(EHR)广泛可用,包含丰富的常规收集数据(如人口统计学、合并症、用药史和临床笔记),且约80%的医疗信息为非结构化文本。肿瘤特异性细节(如大小、纹理和影像描述符)常嵌入在放射学报告中,因提取困难而未被充分利用。近年来,自然语言处理(NLP)技术,包括大语言模型(LLM)和基于transformer的嵌入,被用于从自由文本中提取肿瘤特征。本研究旨在开发并评估一种多模态管道,整合结构化EHR变量与来自CT放射学报告的NLP特征(包括LLM提取的异常特征和基于transformer的报告嵌入),以改善肾肿瘤恶性程度预测。该论文发表在《JMIR Medical Informatics》。
**关键技术方法**
研究人员使用佛罗里达大学健康综合数据存储库中观察性医疗结果合作伙伴关系(OMOP)映射的EHR数据(2011年12月至2024年8月),纳入967名成人肾肿瘤患者。主要方法包括:①本地部署Qwen2.5-32B LLM从CT放射学报告中提取肾脏特异性发现和异常特征;②使用预训练的生物医学transformer模型(放射学BERT(RadBERT)、临床BERT(ClinicalBERT)、生物医学BERT(BioBERT)和PubMedBERT)编码肾脏特异性文本为768维嵌入;③结构化临床变量(人口统计学、合并症、药物、生命体征、实验室测量值)经预处理后,结合LLM提取的异常特征(如病变大小、位置、增强模式等),采用支持向量机(SVM)、随机森林(RF)等机器学习算法建模;④比较单模态模型与早期、中期和晚期三种融合策略,使用80%训练集5折交叉验证和20%独立测试集评估性能,主要指标为受试者工作特征曲线下面积(AUC)。
**研究结果**
- **队列特征**:967名患者中,712例(73.6%)为恶性。平均年龄69岁,约60%为男性,合并症常见(高血压74%,肾脏及输尿管疾病>90%)。中位观察期34.43个月,401例(41.47%)接受手术。
- **LLM提取评估**:在500份独立报告的人工标注金标准上,Qwen2.5-32B实现88.3%总体准确率和100%提取成功率,肾特异性段落检索平均双语评估替补-4(BLEU-4)得分为0.913,优于Qwen2.5-7B、LLaMA3-8B和LLaMA3-70B,被选用于下游特征生成。
- **建模结果**:单模态模型中,结构化临床变量SVM模型AUC为0.758(标准差0.012),RadBERT编码的肾脏特异性文本AUC为0.746(标准差0.058),异常特征逻辑回归AUC为0.716(标准差0.015)。多模态融合模型均优于单模态:早期融合(结合RadBERT嵌入、临床变量和异常特征)实现最高AUC(均值0.813,标准差0.008)和F1分数(均值0.809,标准差0.030);中期融合AUC为0.782(标准差0.011);晚期融合AUC为0.805(标准差0.016)。
- **消融研究**:在早期融合中,剔除临床变量导致AUC最大降幅(从0.813降至0.755);在中期和晚期融合中,剔除肾脏特异性文本导致AUC最大降幅(分别从0.782降至0.731和从0.805降至0.752)。剔除异常特征在所有融合策略中影响最小。
- **可解释性分析**:对早期融合模型,肾脏特异性文本中“greater”、“irregularly”和“huge”等词具有最高归因分数;临床变量中舒张压、收缩压、BMI和血清钠影响最大;异常特征中病变大小和增强模式是关键预测因子。这与已知临床证据一致(如不规则边缘与高级别RCC相关,血压和BMI增加与RCC风险升高相关)。
**讨论与结论**
研究发现多模态融合(尤其是早期融合)整合结构化EHR变量与放射学报告文本实现了比单模态方法更高的描述性预测性能,AUC达0.813。尽管该值不足以支持自动临床决策,但可为术前风险分层提供增量价值,例如对不确定肾脏肿块提供额外的恶性风险定量估计,辅助多学科讨论。消融分析表明结构化临床变量和肾脏特异性文本嵌入提供互补信息。局限性包括:单中心研究无外部验证;EHR数据存在不完整和偏倚;结局标签未全部经病理确认,可能存在诊断循环偏差;LLM提取管道计算需求高。未来需多中心外部验证、前瞻性研究和更稳健的缺失数据处理策略。研究结论:该多模态管道整合结构化EHR变量与放射学报告衍生特征(包括LLM提取的异常特征和基于transformer的肾脏特异性文本嵌入)实现了比单模态基线更高的描述性性能,早期融合取得最高AUC和F1分数,提示多模态EHR建模是支持术前肾脏肿块风险分层的有前景且可扩展的方法。