评估大型语言模型在欧洲宫颈癌指南上的准确性:一项基于计算机模拟的基准测试研究
《BJOG: An International Journal of Obstetrics & Gynaecology》:Assessing the Accuracy of Large Language Models on European Guidelines for Cervical Cancer: An In Silico Benchmarking Study
【字体:
大
中
小
】
时间:2025年11月26日
来源:BJOG: An International Journal of Obstetrics & Gynaecology 4.3
编辑推荐:
本研究评估了ChatGPT 4.0、DeepSeek R1和Gemini 2.0在基于ESGO/ESTRO/ESP宫颈癌指南回答问题时的准确性、一致性和可靠性。通过50个临床相关问题测试,ChatGPT 4.0表现最佳(42% GQS 5),DeepSeek R1最差(28% GQS 5),Gemini 2.0居中。三模型可靠性无显著差异(p=0.602),但ChatGPT 4.0和DeepSeek R1与Gemini 2.0的一致性存在统计学差异(p<0.05)。结论强调所有模型均存在准确性不足问题,需结合专家监督临床应用。
本研究旨在评估三个大型语言模型(ChatGPT 4.0、DeepSeek R1、Gemini 2.0)在宫颈癌相关问题上提供准确、一致和可靠信息的能力,以欧洲妇科肿瘤学会(ESGO)、欧洲放射肿瘤学会(ESTRO)和欧洲病理学会(ESP)2023年最新指南为基准。研究采用前瞻性、基于模拟的基准测试方法,在意大利罗马的 Gemelli 大学医院完成,选取50个临床相关问题进行测试。
### 关键研究发现
1. **准确性差异显著**
ChatGPT 4.0 表现最优,42%的响应获得最高质量评分(GQS 5),中位数评分4.0(3.0-5.0)。DeepSeek R1 和 Gemini 2.0 的中位数评分均为3.5,但DeepSeek R1存在明显短板,32%的响应被评为质量最差的GQS 1。研究首次发现DeepSeek R1存在推荐不恰当的案例(如错误建议腹腔热灌注化疗HIPEC),提示需警惕潜在临床风险。
2. **响应一致性对比**
ChatGPT 4.0和DeepSeek R1的重复回答一致性较高(76%与74%保持一致),但显著优于Gemini 2.0(56%)。统计检验显示ChatGPT与Gemini差异显著(p=0.034),DeepSeek与Gemini差异同样显著(p=0.044),但三者间整体一致性无统计学差异(p=0.059)。
3. **可靠性表现均不理想**
所有模型在可靠性评估中均显示100%的响应符合指南要求,但这一结论可能存在偏差。研究指出,虽然ChatGPT 4.0的中位数评分最高,但其可靠性评分(Cohen's κ=0.921)与DeepSeek R1(κ=0.892)和Gemini 2.0(κ=0.889)无统计学差异,表明所有模型均存在信息可靠性的不足。
### 技术实现与创新
- **多模态处理能力**:Gemini 2.0凭借其文本、图像、音频的多模态处理能力,在结构化临床问题回答中展现出独特优势,但测试显示其准确性反而低于ChatGPT,可能与其处理复杂医学文本时易受非文本信息干扰有关。
- **实时数据整合**:DeepSeek R1虽数据库截止至2023年,但其通过网页检索实时数据的能力,在部分需要最新循证医学证据的题目中表现更灵活,但同时也导致回答质量波动增大。
- **零样本提示策略**:研究采用完全零样本的提问方式(无预训练示例),有效排除了模型预训练内容对结果的影响,更真实反映模型在临床场景中的原始表现。
### 现实意义与局限性
1. **临床应用警示**
研究证实,即便最先进的ChatGPT 4.0,其准确率也仅为42%,且所有模型在复杂临床决策支持方面仍存在明显不足。特别是DeepSeek R1的HIPEC错误推荐案例,暴露了AI在罕见但高风险场景中的决策缺陷。
2. **评估体系待完善**
当前使用的GQS评分系统(1-5分)存在主观性,对临床建议的全面性评估不足。研究建议引入多维度评价体系,包括循证依据强度、治疗推荐可行性、风险提示完整性等。
3. **模型局限性与改进方向**
- ChatGPT 4.0虽表现最佳,但存在回答内容重复性高(76%一致性)的问题,可能反映其生成机制中对相似问题的同质化处理。
- Gemini 2.0的多模态特性在图文结合的宫颈癌筛查场景中具有潜力,但测试中未包含此类复杂案例。
- DeepSeek R1的中文优化能力使其在混合语言临床文档处理中具有优势,但需加强医学领域知识库的更新机制。
### 行业影响与伦理挑战
研究揭示当前AI医学工具存在三大核心问题:
1. **知识更新滞后**:所有模型数据库均截止至2023年,无法及时纳入最新临床指南(如2025年ESGO指南更新)。
2. **临床逻辑盲区**:DeepSeek R1在治疗推荐中出现的严重错误,提示AI缺乏对复杂临床决策链的完整理解。
3. **人机协作机制缺失**:尽管三模型在可靠性评分上无差异,但ChatGPT 4.0的24%响应达到GQS 4(接近专家水平),表明人机协同中存在优化空间。
伦理层面,研究呼吁建立AI医学工具的"临床适用性认证"制度,要求:
- 模型必须公开其知识库截止日期和更新机制
- 生成内容需包含置信度评分(如该研究未统计的置信区间)
- 建立AI错误的双向反馈通道,及时修正系统偏差
### 未来研究方向
1. **领域专用模型开发**:针对宫颈癌管理的特殊需求(如多学科协作决策支持),开发垂直领域AI模型
2. **动态评估体系**:建立基于循证医学数据库的实时质量评估系统,对AI输出进行动态校验
3. **人机协同流程优化**:设计标准化提示词模板,将专家经验转化为可量化的评估维度
4. **跨模型比较研究**:扩大测试范围至更多AI系统(如Claude 3、Bard 2025等),建立横向对比基准
该研究为AI在妇科肿瘤领域的应用提供了重要参考,其发现不仅验证了ChatGPT 4.0的领先地位,更揭示了DeepSeek R1等新兴模型在临床适用性上的不足。研究建议医疗机构在引入AI辅助系统时,应建立包含医学专家、工程师、伦理学家的多学科评估委员会,确保AI工具在临床决策中的安全边界。同时,学术界需要加快开发医疗专用AI评估框架,避免现有通用测试方法无法充分反映临床场景需求的问题。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号