
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在宫颈细胞学诊断中的辅助价值评估:ChatGPT与Gemini的互补性与局限性
【字体: 大 中 小 】 时间:2025年08月08日 来源:Pathology - Research and Practice 2.9
编辑推荐:
【编辑推荐】本研究首次系统评估通用大语言模型(LLM)在宫颈细胞学(NILM/LSIL/HSIL/SCC/ADC)诊断中的表现,发现ChatGPT-4定制版(GPT)与Gemini 2.5 Pro虽能区分正常/异常细胞(敏感度85.4%-100%),但对癌前病变(如HSIL识别率仅6%-63%)和感染诊断准确性不足,提示当前LLM尚不能替代专业病理诊断。
Highlight
图像采集与特征
诊断级高倍视野图像来自武汉兰丁医学高科技股份有限公司(中国湖北)的存档库。这些图像采集自液基宫颈涂片(巴氏染色),40倍放大,尺寸384×384像素(.png格式)。两位病理学家(AA和SA)独立诊断每张图像,存在分歧时由第三位资深病理学家(AB)仲裁。最终选定200张图像:100例阴性(NILM),100例异常(含20例LSIL、20例HSIL、20例SCC、20例AIS、20例ADC)。
区分正常与异常细胞学
评估GPT区分正常(NILM)与异常宫颈细胞的能力时,其平均敏感度85.4%、特异度92.7%、阳性预测值92.3%、阴性预测值86.5%(附图1)。这表明GPT能初步筛选异常病例,但——
诊断准确性
GPT对不同病变类型的诊断表现差异显著:识别NILM最准(89.2%),但对LSIL(34%)、HSIL(6%)、ADC(28%)的准确率骤降。有趣的是,ChatGPT o3与Gemini 2.5 Pro展现互补性——前者擅长NILM识别(89.2% vs 67.2%),后者对LSIL(85%)、HSIL(63%)、ADC(91%)更敏感。不过,思维链提示(chain-of-thought prompting)或多图输入并未显著提升准确性。
讨论
虽然定制版GPT能有效识别正常细胞,但其对异常细胞的诊断堪称"灾难":SCC识别率为0%,HSIL仅56.5%,且常将SCC/ADC误判为HSIL。更糟的是,两种模型对宫颈阴道感染的诊断几乎"全军覆没"。
Conclusion
当前通用大语言模型(LLM)在宫颈细胞学诊断中呈现"偏科"现象——虽具筛查潜力,但对癌前病变和恶性肿瘤的识别可靠性不足,暂不建议作为临床辅助工具。未来需开发针对细胞学优化的专业模型。
生物通微信公众号
知名企业招聘