基于少样本视觉-语言三元分类模型的肺腺癌纯磨玻璃结节侵袭性预测研究
《npj Digital Medicine》:Predicting Invasiveness of Lung Adenocarcinoma from Chest CT with Few-shot Vision-Language Ternary Classification Model
【字体:
大
中
小
】
时间:2025年12月22日
来源:npj Digital Medicine 15.1
编辑推荐:
【编辑推荐】本研究针对纯磨玻璃结节(pGGN)侵袭性术前评估难题,开发了基于GPT-4o的少样本视觉-语言三元分类模型。研究显示,20样本训练策略在四中心848例患者中达到0.80的AUC值,六位放射科医生使用后诊断准确率提升11%-29%。该模型能自动识别10个pGGN侵袭性相关特征,为肺腺癌(LUAD)精准诊疗提供新方案。
在肺部CT检查中,磨玻璃影如同迷雾中的暗影,尤其是纯磨玻璃结节(pure ground-glass nodules, pGGN)的诊断更是充满挑战。这些看似温和的影像学表现背后,可能隐藏着从癌前病变到浸润性腺癌的系列病理改变。目前临床指南虽推荐对pGGN采取随访观察策略,但手术切除中发现浸润性恶性肿瘤的比例高达1.7%-24.3%,这使得术前准确评估肺腺癌(lung adenocarcinoma, LUAD)侵袭性成为临床决策的关键环节。
传统活检和术后病理评估存在局限性,而基于影像学的无创方法应运而生。然而,pGGN缺乏实性成分的特点给现有计算机视觉算法带来巨大挑战——它们难以像经验丰富的放射科医生那样识别空气支气管征、空泡征、血管穿透等细微特征。更重要的是,既往研究多聚焦于侵袭性的二元分类,而针对pGGN的三元分类(癌前病变、微浸润腺癌和浸润性腺癌)研究仍存在空白。
在这一背景下,研究人员将目光投向了新兴的视觉-语言模型。最新一代的GPT-4o不仅能够分析视频数据,还展现出直接感知pGGN侵袭性关键特征的潜力。这项发表于《npj Digital Medicine》的研究创新性地开发了少样本视觉-语言三元分类模型,旨在探索GPT-4o在诊断pGGN侵袭性中的最佳训练策略,并评估其辅助放射科医生进行真实世界诊断的价值。
研究团队采用的关键技术方法包括:基于四家医院848例患者的胸部CT视频构建数据集;通过提示工程让GPT-4o记忆10个pGGN侵袭性相关特征;比较零样本到三十样本不同训练策略的效果;采用 Dice系数评估结节边界勾画准确性;通过放射科医生评估验证模型输出的可靠性;设计读者研究评估模型辅助诊断效果。
研究共纳入848例患者(平均年龄56.32岁),其中癌前病变333例、微浸润腺癌(minimally invasive adenocarcinoma, MIA)376例、浸润性腺癌(invasive adenocarcinoma, IAC)139例。GPT-4o在结节边界勾画中达到0.76的平均Dice系数。20样本训练策略展现出最佳诊断性能,在四家中心的平均准确率达到0.75,灵敏度0.74,特异性0.86,AUC值0.80。这一结果显著优于其他训练策略(P<0.01)。
六位放射科医生(5-20年经验)对GPT-4o输出的10个特征描述进行可靠性评估。在5分制评分中,模型总体获得4.43分的平均分。其中,"体积"、"边缘"和"形状"特征的描述与医生评估最为接近(平均分4.75、4.65、4.60),而"血管穿透"和"胸膜凹陷"特征的一致性相对较低(平均分4.01和3.81)。医生们对GPT-4o输出表现出较高的使用意愿(4.55/5.00)和依赖性(4.22/5.00),同时认为其具有较低的危害风险(1.36/5.00)。
六位不同年资的放射科医生(3-12年经验)在诊断110例患者时,未辅助时的准确率为0.34-0.67,低于GPT-4o的0.73。经过4周洗脱期后,在GPT-4o辅助下,各位医生的诊断准确率分别提升至0.62-0.86,相对提升幅度达11%-29%(P<0.001)。特别值得注意的是,高Dice系数组中GPT-4o辅助带来的诊断修正更多(98 vs 71,P=0.02),表明自动轮廓勾画准确性越高,医生从辅助中获益越大。
与开源视觉-语言模型Molmo相比,GPT-4o在四个数据集上的AUC值(0.45-0.53)显著优于前者(P<0.001)。同时,GPT-4o也胜过Gemini 2.5 Pro(P=0.001),而与既往发表的深度学习模型无显著差异(P=0.282)。在可重复性评估中,GPT-4o对pGGN侵袭性的三类诊断可重复性达到92.00%,特征描述的平均可重复性为81.87%。
这项多中心研究证实,基于20样本训练的GPT-4o模型在pGGN侵袭性三元分类中表现出优越性能。该模型不仅能自动检测和报告关键结节特征,还能显著提升放射科医生的诊断准确性。研究揭示了不同年资医生使用AI辅助的模式差异:低年资医生更依赖特征报告来识别细微影像征象,而高年资医生主要将其作为验证工具。
尽管GPT-4o在识别"血管穿透"和"胸膜凹陷"等细微特征方面仍有提升空间,且存在过度解读侵袭性特征的倾向,但其提供的文本解释和视觉证据大大增强了诊断过程的透明度。这种将深度学习定量精度与视觉-语言模型解释性相结合的方法,为未来临床工作流程优化提供了新思路。
研究的创新点在于首次确定了GPT-4o在pGGN侵袭性预测中的最佳训练策略,并系统评估了其在真实临床环境中的实用价值。随着进一步的外部验证和透明监管,这一技术有望为pGGN侵袭性的临床决策提供有力支持,推动肺腺癌的精准诊疗发展。
研究的局限性包括仍需手动提供pGGN坐标、需要更多样化的数据集验证泛化能力、在线模型潜在的隐私风险等。未来研究将探索良性GGN的纳入、动态CT的价值以及长期随访数据的作用,进一步拓展视觉语言大模型在肺部影像分析中的应用前景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号