
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在CNS肿瘤门诊中的临床可行性研究:双语环境下诊断与治疗决策的替代潜力评估
【字体: 大 中 小 】 时间:2025年06月13日 来源:International Journal of Medical Informatics 3.7
编辑推荐:
本研究针对中枢神经系统(CNS)肿瘤诊疗资源不均、基层误诊率高等问题,系统评估了ChatGPT-4o、DeepSeek-R1和Doubao三种大型语言模型(LLMs)在双语门诊环境中的表现。结果显示,ChatGPT-4o和DeepSeek-R1在鉴别诊断(准确率>90%)和主要诊断(>87%)任务中与神经外科医生无显著差异(P>0.05),但治疗建议准确性(71.3-80.5%)显著低于医生(P<0.05)。该研究为LLMs在神经肿瘤学临床辅助决策中的应用提供了实证依据。
在神经外科门诊,中枢神经系统(CNS)肿瘤的诊断犹如解开一个多维度的谜题——从胶质瘤、脑膜瘤到转移瘤,每种亚型都有独特的生物学行为和临床表现。然而现实是残酷的:医疗资源分布不均导致欠发达地区患者死亡率显著升高,而即使是经验丰富的医生,面对复杂的影像学特征和瞬息万变的治疗指南也常感力不从心。更棘手的是,全球约40%的CNS肿瘤患者首诊时已属晚期,这与基层医疗机构诊断能力不足密切相关。
正是在这样的背景下,中国医学科学院肿瘤医院的研究团队将目光投向了人工智能领域的新锐力量——大型语言模型(LLMs)。这些基于海量医学文献训练的人工智能,能否在真实的双语门诊环境中胜任神经肿瘤的诊疗工作?研究团队设计了一项开创性试验:让ChatGPT-4o、国产的DeepSeek-R1和Doubao三位"AI医生",与15年资历的神经外科专家同台竞技,在338例真实门诊病例中展开诊断对决。
研究采用多维度评估框架:首先通过专业翻译工具将中文病例标准化转换为英文,构建双语测试集;随后模拟门诊场景设计标准化提示词,要求模型完成鉴别诊断(列出3种可能疾病)、确定主要诊断、提出治疗建议三大任务。所有输出由35年资历的主任医师盲审,严格参照NCCN指南进行评分。为控制偏倚,当两位评审专家意见分歧时,需通过共识讨论确定最终标准答案。
在"火眼金睛"的鉴别诊断环节,ChatGPT-4o展现出与人类专家比肩的实力——中英文输入下的准确率分别达到94.4%和95.0%,与医生组的94.7%无统计学差异(P>0.05)。国产翘楚DeepSeek-R1同样表现亮眼(93.8%),而Doubao则稍逊一筹(87.6%)。当挑战升级到需要"一锤定音"的主要诊断时,ChatGPT-4o依然稳扎稳打(90.2%中文/91.4%英文),但所有模型在治疗建议环节均出现明显"短板"——最优的ChatGPT-4o准确率仅80.5%,显著低于医生的87.0%(P=0.03)。
深入分析发现,AI的失误颇具启发性:在一例左桥小脑角区病变的病例中,ChatGPT-4o无视患者无症状的特征,武断建议"手术+放疗"的组合拳,而人类专家则基于影像学特征选择了保守随访。这种"过度治疗倾向"暴露出LLMs在风险收益权衡上的不足。另一个关键发现是:三款模型在英语环境下的表现均不逊于中文场景,ChatGPT-4o甚至略有优势,这打破了"中文医学AI必然本土领先"的固有认知。
该研究的价值不仅在于验证了LLMs的临床可行性,更指明了未来发展方向:首先,必须开发能解析原始影像的多模态模型,突破当前依赖文本报告的局限;其次,需建立"人类医生-AI"的协同机制,例如让AI处理标准化流程,而医生专注复杂决策。正如作者强调的,这项研究绝非要用算法取代医者,而是为医疗资源匮乏地区提供一把"智能听诊器"——在安徽新华大学等机构资助的后续研究中,团队正尝试将这套系统部署到县域医院,让更多患者能享受到顶级医疗机构的诊断智慧。
这项发表在《International Journal of Medical Informatics》的研究,首次在真实世界场景中证明了LLMs作为神经肿瘤"第二意见"提供者的价值。特别是在中国等发展中国家,这种能同时处理中英文医疗数据的AI助手,有望成为平衡医疗资源的重要杠杆。当然,作者也清醒地指出:当涉及开颅手术或放化疗等重大决策时,AI的建议仍需谨慎对待——毕竟在生命面前,任何算法都应该是"辅助轮",而非"方向盘"。
生物通微信公众号
知名企业招聘