编辑推荐:
头颈鳞癌(HNSCC)术前准确检测淋巴结转移(LNM)及评估结外扩散(ENE)对手术规划至关重要。本研究评估 ChatGPT-4 V 基于 CT 图像的 AI 术前影像识别价值,发现其敏感性高但特异性低,为 AI 在头颈癌应用提供方向。
头颈部鳞癌(HNSCC)作为一类异质性恶性肿瘤,其术前精准诊断与治疗规划一直是临床难题。淋巴结转移(LNM)是影响 HNSCC 预后的关键因素,而结外扩散(ENE)更是与患者预后显著相关。目前,术前影像评估主要依赖放射科医生和头颈肿瘤学家的主观判断,存在准确性不足的问题,尤其在预测口咽 HPV 阳性鳞癌(OPSCC)的 ENE 时,缺乏精准工具指导临床决策,可能导致过度治疗或治疗不足。在此背景下,人工智能(AI)技术的兴起为影像分析带来新希望,尤其是 OpenAI 推出的 ChatGPT-4 V,其具备图像分析能力,有望提升术前评估的效率与准确性。为探索 AI 在 HNSCC 术前规划中的应用潜力,德国慕尼黑工业大学(Technical University Munich)的研究团队开展了相关研究,评估 ChatGPT-4 V 基于颈部 CT 图像的 AI 术前影像识别价值,该研究成果发表在《Discover Oncology》。
研究人员回顾性分析了 45 例术前 CT 扫描,包括 15 例选择性颈清扫术(sND)、15 例改良根治性颈清扫术(mrND)和 15 例无 LNM 的病例。由经验丰富的头颈放射科医生从每个 CT 数据集中选取 3 张最可能显示 LNM 及血管浸润的图像(轴位、矢状位、冠状位),转换为 JPEG 格式后输入 ChatGPT-4 V。通过迭代优化确定最终提示词,要求 AI 描述影像特征、判断是否存在 iENE 及推荐颈清扫范围。同时,由两名独立的头颈外科医生对 AI 响应进行双盲评估,与术后组织病理学结果对比,分析 AI 的诊断性能(敏感性、特异性、准确性等)。
术前 CT 扫描分析与 ChatGPT-4 V 响应结构
ChatGPT-4 V 对 45 例 CT 图像的分析响应结构清晰,首先描述影像 findings,识别扫描层面,突出 LNM 及关键结构(如椎前筋膜、颈动脉)受累情况,甚至注意到气道侵犯等额外信息。在 iENE 评估部分,AI 基于淋巴结边缘不规则、邻近结构受累等特征判断 ENE 存在。在颈清扫建议中,AI 会列出需切除的淋巴结水平及关键结构(如副神经、颈内静脉),尤其在 mrND 病例中强调关键结构受累的手术限制。平均响应时间仅 31.2 秒,展现出 AI 分析的高效性。
临床医生与 AI 的准确性比较及病理结果对照
在颈清扫类型预测方面,ChatGPT-4 V 推荐 mrND 的敏感性达 100%,但特异性仅 34.09%,总体准确性 35.56%。两名人类 reviewers 的敏感性分别为 87.1% 和 77.4%,特异性分别为 78.57% 和 57.14%,均显著高于 AI。在 iENE 检测中,AI 的敏感性 100%,特异性 34.15%,准确性 40.0%,而 reviewers 的敏感性为 74.3% 和 76.0%,特异性为 50.0% 和 40.0%。此外,AI 在无 LNM 的 CT 图像中也频繁推荐 mrND 和检测到 iENE,显示出过度估计的倾向。
风险分层与手术规划考量
针对 15 例 mrND 病例,ChatGPT-4 V 评估手术风险时,将血管结构受累列为最关键风险因素,其次为软组织侵犯、骨软骨浸润等,对 73.3% 的病例给出不同等级的风险评估,但无法按发生概率对并发症风险排序。
研究表明,ChatGPT-4 V 在 HNSCC 术前 CT 影像分析中表现出极高的敏感性,但特异性显著不足,存在过度估计 LNM 程度和 ENE 的倾向,目前尚不能为手术规划提供附加价值。然而,其分析速度快、推理有依据,提示 AI 工具未来可能通过优化训练数据集、结合多模态数据等方式提升性能。该研究首次探索了 LLM 在头颈癌术前影像评估中的应用,为 AI 在该领域的发展提供了重要参考,指出需进一步开展前瞻性研究、优化模型训练,以推动 AI 在头颈肿瘤精准诊疗中的实际应用。