编辑推荐:
甲状腺结节风险评估存在过度诊断等问题,传统 AI 模型又缺乏透明度和可解释性。研究人员开发多模态生成预训练变压器(ThyGPT)。结果显示,ThyGPT 可降活检率超 40%、提高诊断准确性。其有望变革甲状腺结节诊断方式。
在医学领域,甲状腺结节是一种常见的内分泌疾病,成年人中其患病率超过 60%,女性发病率更是男性的三倍之多。不过,大多数甲状腺结节是良性的,仅有约 7 - 15% 为恶性。在临床实践里,超声(US)成像和细针穿刺(FNA)活检是评估甲状腺结节风险的主要方法。然而,超声检查的诊断结果在很大程度上依赖于放射科医生的经验和技能,即使进行 FNA 活检,仍有超过 15% 的结节难以精确评估风险。这种不确定性不仅给患者带来了身体和心理上的创伤,还导致了医疗费用的大幅增加,过度诊断和治疗的问题十分突出。
与此同时,基于超声图像和人工智能(AI)模型的计算机辅助诊断(CAD)技术逐渐兴起,为解决这一难题带来了希望。但传统的 AI 模型存在严重缺陷,它们就像一个个 “黑箱” 和 “哑箱”,缺乏透明度和可解释性,无法为诊断提供合理依据,也难以与放射科医生进行有效互动,导致许多医生对其信心不足,甚至放弃使用。
为了打破这些困境,来自浙江癌症医院、浙江大学等多家国内机构的研究人员开展了一项极具意义的研究。他们开发了一种专门用于甲状腺结节的多模态生成预训练变压器(ThyGPT),旨在为甲状腺结节风险评估和管理提供一个透明、可解释的 AI 辅助模型。相关研究成果发表在《npj Digital Medicine》上。
研究人员在这项研究中用到了多个关键技术方法。他们首先进行了多中心数据收集,从中国 9 家医院回顾性收集了 59406 名患者的超声数据。接着,建立了三个队列,构建了一个训练集和两个测试集。在模型构建方面,采用了 LLaMA3 模型和变压器架构,并运用自我注意力机制等技术进行训练。同时,对超声图像进行了标准化预处理和数据增强,以提高模型性能。
下面来看看具体的研究结果:
- 辅助诊断性能:研究人员在包含 2964 名患者和 3376 个肿瘤(其中 1601 个为恶性)的测试集 1 上评估 ThyGPT 的诊断性能。通过对比不同经验水平的放射科医生在不同辅助条件下的诊断结果发现,与仅参考传统特征热图相比,放射科医生与 ThyGPT 交流后,诊断能力显著提升。例如,在与 ThyGPT 充分交流后,放射科医生的平均敏感性从 0.802(95% 置信区间 [CI]:0.793 - 0.809)提升至 0.893(95% CI:0.887 - 0.899),平均特异性从 0.809(95% CI:0.802 - 0.817)提升至 0.922(95% CI:0.917 - 0.927)。此外,根据 ThyGPT 的预测结果制定的策略,可使测试集中 FNA 的比例从 64.2% 降至 23.3%(p<0.001),同时恶性肿瘤漏诊比例从 11.6% 降至 5.3%(p<0.001)。
- 与放射科医生的交流:通过分析一些典型病例发现,ThyGPT 与放射科医生的交流互动效果良好。在部分病例中,放射科医生最初判断不准确,但在咨询 ThyGPT 并参考其分析后修改了诊断。不过,ThyGPT 也存在误判情况,如将恶性结节误判为良性或反之。但总体而言,AI 辅助能有效补充人类专业知识,提高检测率。从诊断改变的统计数据来看,初级放射科医生诊断改变率更高(11.5%),且改变后的诊断准确率高(错误改变率仅 0.2%)。同时,研究还发现 TR4 结节更易发生诊断修改,ThyGPT 预测的结节恶性风险值与放射科医生的错误诊断改变高度相关,在风险值 0.4 - 0.6 区间错误改变较多。
- 检测诊断报告中的错误:在包含 1263 份超声报告(其中 157 份有错误)的测试集 2 上,ThyGPT 展现出强大的错误检测能力。其错误检测率达到 0.905(142/157;95% CI:0.899 - 0.910),远超放射科医生。在 ThyGPT 的辅助下,放射科医生的平均错误检测率从 0.764(120/157;95% CI:0.751 - 0.779)提升至 0.962(151/157;95% CI:0.959 - 0.966),且处理报告的速度比放射科医生快 1610 倍(ThyGPT 处理报告平均时间为 0.031s,放射科医生为 49.9s),能满足实时检测报告错误的需求。
综合研究结论和讨论部分,ThyGPT 作为一种创新的 AIGC - CAD 模型,具有重大意义。它能够与放射科医生进行自然语言交互,解释诊断依据,解决了传统 CAD 模型 “黑箱” 和 “哑箱” 的问题,增强了医生对 AI 诊断的信任。同时,ThyGPT 有效提高了甲状腺结节的诊断准确性,减少了不必要的侵入性操作,还能快速检测超声报告中的错误,有助于提高医疗服务的整体质量。不过,该研究也存在一定局限性,如对甲状腺结节亚型(如 FTC)的识别能力存在差异,预测阳性值(PPV)会随评分阈值波动,超声设备多样性对模型性能也有影响。但尽管如此,ThyGPT 仍为医学影像 CAD 领域带来了新的思路和方向,有望推动 AI 辅助放射学在临床实践中的广泛应用,为甲状腺结节患者带来更精准、高效的医疗服务。