
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型与视觉语言模型在宫颈细胞学筛查中的性能评估:CCBench基准数据集构建与多模态AI临床应用潜力
【字体: 大 中 小 】 时间:2025年05月24日 来源:npj Precision Oncology 6.8
编辑推荐:
本研究针对宫颈细胞学筛查中人工判读效率低、传统AI任务特异性强的问题,构建了首个包含773组QA对和420组VQA三联体的标准化数据集CCBench,系统评估了6种大型语言模型(LLM)和5种视觉语言模型(LVLM)的筛查性能。结果显示GPT-4在文本问答任务中表现最优(准确率70.5%),Gemini在视觉闭卷问答中领先(准确率67.8%),但模型仍存在知识幻觉和错误推理风险。该研究为多模态AI在癌症早筛领域的应用提供了重要基准,成果发表于《npj Precision Oncology》。
宫颈癌作为全球女性癌症死亡的主要原因之一,2022年新发病例达66万例。传统宫颈细胞学筛查依赖病理医师在显微镜下从数万个细胞中识别少量病变细胞,这种高度依赖经验的工作模式效率低下且易疲劳。虽然现有AI辅助系统能提升筛查效率,但局限于特定任务(如病变检测),缺乏类似细胞病理学家的解释推理能力。近年来,以GPT-4、Gemini为代表的大型语言模型(LLM)和视觉语言模型(LVLM)在医疗领域展现出接近人类的认知能力,但其在宫颈细胞学筛查中的系统性能评估仍属空白。
华中科技大学等机构的研究团队通过构建CCBench基准数据集,首次系统评估了6种LLM(包括GPT-4、Claude-2.0等)和5种LVLM(含GPT-4V、Gemini等)在宫颈细胞学筛查中的表现。研究采用基于Bethesda系统(TBS)教材的半自动化流程,提取424个知识点和128组图文对,构建了包含773个文本问答对和420个视觉问答三联体的数据集。通过开发GPT-4驱动的半自动评估管道,结合专家评分和G-Eval算法指标,发现GPT-4在文本问答任务中表现最优(闭卷准确率70.5%,开卷专家评分6.9/10),而Gemini在视觉闭卷问答中领先(准确率67.8%)。值得注意的是,GPT-4V在视觉开卷任务中获得最高专家评分(6.1/10),但所有模型在难题上的表现均低于随机基线,且存在知识幻觉和逻辑推理错误风险。该研究发表于《npj Precision Oncology》,为多模态AI在癌症早筛领域的临床应用建立了重要基准。
关键技术方法包括:1) 基于TBS教材的图文知识提取与标准化处理;2) GPT-4驱动的半自动QA/VQA数据集生成管道;3) 包含闭卷(准确率/F1值)和开卷(专家评分/G-Eval)的多维度评估体系;4) 对11种主流模型的API隔离测试;5) 基于临床实际病例的私有数据集验证。
基准数据集CCBench
研究团队从TBS教材中提取出涵盖子宫内膜细胞(7.5%)、非典型鳞状细胞(12.16%)等章节的424个知识点,构建的QA数据集包含41.01%鳞状上皮细胞异常和39.33%腺上皮细胞异常相关内容。VQA数据集则覆盖31.67%非肿瘤性病变和20.71%非典型鳞状细胞等视觉判读难点。通过分析问题首词分布("what/how/is"占比最高)和医学术语频率(如"hyperchromasia"),确保数据集符合临床实际需求。
评估管道设计
创新性开发的分阶段评估系统包含:1) 基于思维链(Chain-of-Thought)的系统提示设计,要求模型分步推理;2) API隔离测试防止数据泄露;3) 非格式化答案处理机制(如JSON格式转换);4) 专家评分标准(10分制)与G-Eval算法(1分制)的并行验证。三专家评分的一致性分析显示Spearman相关系数达显著水平。
QA数据集性能
在文本闭卷任务中,Qwen-Max获得最高F1值(0.812),但GPT-4综合表现最优。开放问答中GPT-4的细胞形态描述最接近病理学家水平(图4g示例)。模型在腺上皮细胞异常章节表现最佳(GPT-4准确率78.3%),但在子宫内膜细胞章节表现最差(平均准确率<50%)。难度分析显示,对于超过4个模型答错的"难题",所有LLM准确率均低于30%。
VQA数据集性能
Gemini在视觉闭卷任务中展现最强特征识别能力,但Qwen-VL在"其他恶性肿瘤"章节意外获得最高F1值(0.788)。GPT-4V在开放视觉问答中能准确描述涂片特征(图6g),而LLaVA存在将细胞颜色与异常直接关联的伪逻辑。错误模式分析揭示两大缺陷:知识性错误(如Gemini漏诊核仁特征)和幻觉性错误(如Claude-2将良性簇状结构误判为HSIL)。
讨论与展望
该研究首次证实多模态AI在宫颈细胞学筛查中的应用潜力,但凸显三大局限:1) 模型在TBS标准与实际临床变异间的泛化能力不足;2) 知识幻觉可能导致临床误判(如LLaVA的"蓝色细胞即异常"论断);3) 难题处理能力远低于病理专家。作者建议通过领域适配微调和临床异构数据扩充来提升可靠性,同时强调当前阶段需严格监管模型输出。发布的CCBench数据集和评估管道为后续研究提供重要工具,推动AI辅助癌症早筛向可解释、可信任方向发展。
生物通微信公众号
知名企业招聘