多模态大语言模型在口腔病变诊断中的视觉增益:ChatGPT-5与Gemini 2.5 Pro的专家对标评估
《Scientific Reports》:Vision-based diagnostic gain of ChatGPT-5 and gemini 2.5 pro compared with human experts in oral lesion assessment
【字体:
大
中
小
】
时间:2025年12月06日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对口腔医学中准确、及时的病变诊断难题,引入视觉诊断增益(VWDG)新指标,前瞻性评估ChatGPT-5和Gemini 2.5 Pro多模态大语言模型(LLMs)在200例活检验证口腔病变中的诊断效能。结果显示:ChatGPT-5在整合图像后诊断准确率显著提升(Top-1增益+19个百分点),尤其在恶性/疑难病例中表现突出;Gemini 2.5 Pro则呈现文本主导特性。研究首次证实多模态AI可达到专家级诊断水平,为临床AI整合提供量化依据。
当患者口腔内出现不明病变时,准确诊断是决定治疗成败的关键。然而在现实医疗场景中,专科医生资源分布不均、临床诊断错误率居高不下(文献报道最高达43%),以及基层医疗机构缺乏经验丰富的口腔医学专家等问题,严重影响了患者获得及时、准确诊断的机会。特别是在低资源地区,患者往往需要辗转多家医疗机构,耗时超过一年才能获得明确诊断。即使是在专科诊所,口腔恶性病变的临床诊断灵敏度也可能低至45%,这种诊断不确定性直接关系到患者的预后与生存质量。
近年来,人工智能(AI)在医疗影像分析领域展现出巨大潜力,尤其在放射学和皮肤科已取得显著进展。但在口腔医学领域,AI的应用仍多局限于实验室环境,缺乏对真实临床场景的验证。大多数研究使用精心筛选的高质量图像库,而非日常临床工作中遇到的异质性材料,这导致AI模型的实验室性能与临床实际应用之间存在巨大鸿沟。此外,现有对大型语言模型(LLMs)的评估多集中于文本输入,对多模态(文本+图像)诊断能力的系统研究尚属空白。
正是在这样的背景下,由Fatma E.A. Hassanein领衔的研究团队在《Scientific Reports》上发表了最新研究,首次引入"视觉诊断增益(Vision-Based Diagnostic Gain, VWDG)"这一创新指标,系统评估了两种最先进的多模态大语言模型(ChatGPT-5和Gemini 2.5 Pro)在口腔病变诊断中的表现,并与委员会认证的口腔医学专家进行对标比较。
本研究采用前瞻性、活检验证的配对诊断准确性研究设计,从埃及三所大学口腔医学诊所连续招募236例患者,最终纳入200例经组织病理学证实的口腔病变病例。每个病例构建标准化临床资料,包括人口统计学信息、医疗史、病变描述以及高分辨率口内照片和必要的影像学检查。所有病例按病变类型(恶性/良性/反应性/炎症性)和诊断难度(低/中/高)进行分层。
研究核心是比较两种多模态LLMs(ChatGPT-5和Gemini 2.5 Pro)与人类专家在生成鉴别诊断方面的表现。每个病例在两种条件下进行评估:仅文本提示和文本加图像提示。诊断准确性通过Top-1、Top-3和Top-5准确率衡量,VWDG则通过比较两种输入条件下的性能差异来量化视觉输入的增量诊断价值。统计分析采用Cochran's Q检验、配对McNemar检验等多变量方法。
人类专家在所有诊断层级均表现最优,Top-1准确率达81.0%,Top-3为87.0%,Top-5为94.0%。在仅文本条件下,ChatGPT-5的Top-1准确率为45.0%,显著低于其他条件。但当引入图像信息后,ChatGPT-5的性能大幅提升至64.0%,与Gemini的多模态条件(62.0%)无统计学差异。在Top-3和Top-5层级,ChatGPT-5在图像加持下的表现(80.0%和86.0%)已与专家无显著差异。
ChatGPT-5从视觉输入中获益显著,在Top-1、Top-3和Top-5层级的绝对增益分别为+17、+18和+17个百分点,错误减少率分别达30.9%、47.4%和60.7%。相反,Gemini 2.5 Pro的视觉增益微乎其微(Top-1为+2个百分点,Top-3无增益,Top-5甚至出现-1个百分点下降)。两者之间的VWDG差异具有统计学显著性(p<0.001),效应规模为小到中等。
在仅文本条件下,Gemini在恶性病变诊断中显著优于ChatGPT-5(Top-1准确率65.0% vs 30.0%)。但引入图像后,ChatGPT-5在恶性、反应性和炎症性病变中均实现20-26个百分点的增益,迅速缩小甚至反超与Gemini的差距。例如,在反应性病变的Top-3诊断中,ChatGPT-5达到85.7%,优于Gemini的74.3%。良性病变中,两种模型均未从视觉输入中获得显著增益。
Gemini在高难度病例的文本诊断中表现稳健(Top-1准确率68.6%),而ChatGPT-5在中度难度病例中视觉增益最为显著(Top-1增益+30个百分点)。在低难度病例中,两模型性能相当且视觉增益有限。
逻辑回归分析证实,图像输入使ChatGPT-5的正确诊断几率显著增加(Top-1比值比[OR]=5.25),尤其在炎症性(OR=37.0)和反应性病变(OR=25.0-29.0)中效益最大。Gemini的视觉增益则无统计学意义。
本研究通过引入VWDG这一创新指标,首次量化评估了多模态大语言模型在真实临床环境中的视觉诊断价值。研究发现ChatGPT-5作为"视觉协同者",能有效整合图像信息实现诊断性能的飞跃,尤其在恶性、炎症性和中难度病例中表现突出;而Gemini 2.5 Pro则表现为"文本专家",视觉增益有限但文本推理稳健。
这一发现对临床实践具有重要指导意义:在图像资料完备的场景下,ChatGPT-5类视觉依赖型模型可提供专家级诊断支持;而在文本主导的远程医疗或初诊环节,Gemini类文本专家型模型更具优势。这种互补特性提示了"人机协同诊断"的新范式——AI负责复杂病例的多模态模式识别,人类专家专注于直观诊断和临床判断。
研究的创新点在于突破了既往AI评估的实验室局限,采用真实临床材料和完善的统计方法,为多模态AI的临床整合提供了量化依据。VWDG框架不仅可用于模型基准测试,还能指导AI在临床中的情境化应用,推动口腔医学诊断向更精准、高效和可及的方向发展。
未来研究应关注动态人机协作机制的开发,以及AI输出安全融入临床工作流程的具体路径,最终实现AI技术在改善患者预后方面的全面价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号