基于多模态深度学习融合临床影像、病理与血液生物标志物的骨肿瘤精准诊断研究

《Journal of Bone Oncology》:Multimodal deep learning for bone tumor diagnosis with clinical imaging, pathology, and blood biomarkers

【字体: 时间:2025年10月26日 来源:Journal of Bone Oncology 3.5

编辑推荐:

  本研究针对骨肿瘤良恶性分类准确率低的临床难题,开发了一种融合临床影像、病理切片和血液生物标志物的多模态深度学习框架。该研究采用YOLOv5进行肿瘤区域定位,结合ResNet提取影像特征,并创新性地利用大语言模型将异常血液指标转化为文本描述后通过BioBERT编码。结果显示,该多模态融合模型的宏观平均精确度达0.9056,AUC为0.9759,显著优于单模态方法,为骨肿瘤的自动化精准诊断提供了新范式。

  
在骨科肿瘤学领域,准确区分骨肿瘤的生物学行为——是良性、恶性还是中间型,是决定患者治疗方案和影响预后的关键环节。然而,临床实践却面临着巨大挑战:骨肿瘤相对罕见,其生物学特性复杂多样,且良恶性肿瘤的临床表现常有重叠,使得诊断过程犹如迷雾中寻路。传统的诊断高度依赖单一模态的影像学分析,但不同病变部位和复杂癌症类型的变化多端,让即使是经验丰富的医生也难免感到棘手。诊断的失误可能导致两种极端后果:对良性病变的过度治疗,或对侵袭性肿瘤的干预延迟,这些都深刻影响着患者的生存质量和生存率。尽管病理活检被视为诊断的“金标准”,血液生物标志物也能提供有价值的肿瘤活动信息,但任何单一信息来源都可能遗漏关键特征。近年来,人工智能技术在医学影像分析中展现出强大潜力,但现有研究多局限于单一模态,难以全面捕捉肿瘤的多维特征,且存在可解释性不足、检测与分类流程耦合过紧等问题。正是在这样的背景下,一项发表于《Journal of Bone Oncology》的研究,旨在通过多模态深度融合,为骨肿瘤诊断开辟一条新路径。
为了攻克上述难题,研究人员设计并实施了一项创新的研究。他们从医院收集了骨肿瘤病例队列,构建了一个包含临床影像(X射线、CT、MRI)、病理切片和血液生物标志物的多模态数据集。用于肿瘤检测的临床影像数据集包含1115张图像,经过数据增强后扩展至2179张。用于分类的多模态队列则从38例患者中构建了577个数据组,每个数据组包含多种临床影像、病理切片及其对应的血液生物标志物,所有病变均经病理证实并按世界卫生组织(WHO)第五版标准分为良性、中间型或恶性。
本研究采用的核心关键技术方法主要包括:1) 基于YOLOv5的目标检测模型,用于在临床影像上自动定位肿瘤区域;2) 基于ResNet的深度学习模型,用于从临床影像和病理切片中提取深度视觉特征;3) 创新的血液生物标志物处理流程,即利用大语言模型(LLM)将异常的血液指标值转化为描述性文本,再通过生物医学领域预训练语言模型BioBERT编码为语义特征;4) 多源特征融合模块,将上述三种模态的特征进行整合,最终完成骨肿瘤的三分类任务。
3.1. 数据集
研究使用了两个独立的数据集。骨肿瘤检测任务的数据集经过增强后包含2179张临床图像。骨肿瘤分类任务的数据集包含577个由38例患者构建的数据组,涵盖了13种不同的骨病变类型,并按生物学行为进行了标注,数据集按照8:1:1的比例划分为训练集、验证集和测试集。
3.2. 系统性能和临床部署
对系统临床适用性的评估显示,端到端的平均推理时间为每例患者0.68秒。系统采用模块化设计,支持灵活部署。框架可集成到医院影像归档和通信系统(PACS)、实验室信息系统(LIS)和医院信息系统(HIS)中。所有数据处理均遵循严格的隐私保护规范。
3.3. 肿瘤检测实验细节
检测模型采用预训练的YOLOv5-s权重进行初始化,并应用了Mosaic和MixUp等数据增强技术。训练分为骨干网络冻结和解冻两个阶段,使用随机梯度下降(SGD)优化器,并采用余弦退火学习率调度策略。
3.4. 骨肿瘤分类实验细节
分类模型训练时,所有图像均经过标准化和 resize 处理。使用Adam优化器,初始学习率为1×10-4,并以交叉熵损失函数进行三分类任务。
3.5. 骨肿瘤检测结果
YOLOv5模型在训练过程中表现出良好的收敛性。在测试集上,模型在不同交并比(IoU)阈值下均表现出稳健的检测能力,其中mAP@0.5达到79.25%。在置信度阈值为0.4时,F1分数达到0.79,体现了灵敏度与特异度的良好平衡。可视化结果证实了模型在定位肿瘤区域方面的有效性。
3.6. 骨肿瘤分类结果
3.6.1. 本研究方法的结果
所提出的多模态融合方法在骨肿瘤三分类任务中取得了优异性能,宏观平均精确度、F1分数和AUC分别达到0.9056、0.8736和0.9759,尤其在良性和恶性类别上表现突出。
3.6.2. 消融实验结果
消融研究量化了每种输入模态的贡献。仅使用临床影像时,精确度为0.6429;仅使用病理切片时为0.6875。任意两种模态组合均能显著提升性能。当融合所有三种模态时,性能达到最优,证明了多模态融合策略通过利用互补信息显著增强分类效果。
3.6.3. 与其他模型的比较
与VGG结合Transformer以及Inception结合XGBoost等主流模型相比,本研究提出的方法在所有评估指标上均优于基线模型,凸显了其优越性。
3.6.4. 五折交叉验证用于稳健性评估
五折交叉验证的结果显示,模型在不同数据划分下均保持了高性能且波动较小,宏观平均精确度、F1分数和AUC的平均值分别为0.9047、0.8727和0.9735,证明了模型的稳健性和泛化能力。
3.6.5. 通过显著性图进行可解释性分析
为增强模型决策过程的临床可解释性,生成了梯度加权类激活图(Grad-CAM)。可视化显示,模型的注意力集中在具有诊断相关性的影像学异常区域,例如良性骨样骨瘤的瘤巢、中间型骨巨细胞瘤的膨胀性溶骨性病变以及恶性骨肉瘤的皮质破坏区,这与临床诊断指南一致,有助于建立临床医生对模型的信任。
研究的讨论部分指出,精心设计的融合临床影像、病理和血液生物标志物的多模态策略,能够在骨肿瘤检测和分类这一挑战性任务中显著超越标准的单模态深度学习模型。采用两阶段(检测-分类)流程不仅确保了更鲁棒的病变定位,也通过利用不同数据类型的互补优势实现了更准确的肿瘤分级。与传统模型相比,该研究解决了临床人工智能应用普遍面临的泛化性和可解释性不足的问题。特别是利用大语言模型将生化检测结果转化为语义丰富的文本表示,实现了跨领域知识迁移,增强了模型处理复杂异构数据的能力。
综上所述,该研究提出了一个全面、可解释且准确的AI辅助骨肿瘤诊断框架,通过融合成像、病理和生化实验室信息,实现了相对于单模态和传统方法的性能大幅提升,为骨肿瘤的自动化检测和分级设立了新基准。未来的工作将集中于扩展数据源、优化融合策略,并进一步弥合研究与临床部署之间的差距,为实现智能化、个体化的肌肉骨骼肿瘤诊疗提供支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号