《European Journal of Surgical Oncology》:Exploration of the Assessment of Clinical Decision-Making Capabilities in Clinical Oncology Based on Generative Large Language Models
编辑推荐:
本研究评估了DeepSeek R1和ChatGPT-4 o1在肿瘤学临床决策支持中的效果,通过多维度框架比较其准确性和适应性,结果显示两者与人类医生相当,但DeepSeek在人文关怀方面更优,ChatGPT在可读性上更佳,提示AI在医疗中的应用潜力与局限性并存。
李钊|杨春燕|陈春辉|王婷婷|向娜娜|彭磊|张少华
首都医科大学北京安贞南充医院肿瘤科,南充市中心医院,中国南充637200
摘要
背景
随着大型语言模型(LLM)技术的进步,生成式人工智能(AI)在医疗保健领域展现了变革潜力,特别是在通过数据整合和语义推理来优化临床工作流程以支持临床决策(CDS)方面。然而,现有的AI模型主要依赖于标准化指南的逻辑推导,其在复杂、高风险临床场景中的有效性仍有待进一步验证。本研究评估了DeepSeek R1和ChatGPT-4 o1在真实世界肿瘤诊断和治疗环境中的CDS效果,通过多维框架评估了它们建议的准确性和适应性。
方法
基于真实的肿瘤病例,开发了一个时间序列、链式结构的临床问题集。DeepSeek R1和ChatGPT-4 o1的回答由四位肿瘤专家独立生成,并对其准确性和可行性进行了盲评。统计分析和可视化使用Prism GraphPad 10.0软件完成。
结果
DeepSeek R1和ChatGPT-4 o1在肿瘤CDS方面表现出总体上的胜任能力,与人类临床医生的表现没有显著差异。使用临床决策质量评估量表进行的评估表明,两种模型的表现都很稳健。亚组分析显示,DeepSeek R1在医学人文关怀方面表现更好,而ChatGPT-4 o1在可读性方面更为出色。在知识准确性、测试合理性或药物标准化方面,两种模型之间没有观察到统计差异。
结论
像DeepSeek R1和ChatGPT-4 o1这样的生成式AI模型在肿瘤CDS方面展现了与临床医生相当的综合能力,表明它们具有潜在的临床应用价值。然而,AI在复杂病例中的可靠性仍需改进,目前还不能替代医生的专业知识。未来的研究应优先考虑多模态知识整合和伦理监督,以增强AI在优化诊断效率和人文关怀质量方面的作用。
引言
大型语言模型(LLM)基于最新的人工智能(AI)技术,能够通过大量数据学习和复杂的语义推理进行自然语言处理、生成和理解。LLM利用深度学习算法从大量文本中提取知识,具备强大的语义理解和生成能力[1],[2]。因此,它们被广泛应用于文本生成、机器翻译、智能问答和客户服务等领域。近年来,LLM在医学领域的应用也显示出巨大潜力,特别是在优化临床决策支持(CDS)方面,它们可以整合医学知识、病例数据和临床指南,帮助医生做出更精确和高效的临床决策[1]。生成式大型语言模型结合人类反馈强化学习,进一步提高了它们在临床决策中的准确性和适应性,成为医学领域未来发展的重要方向[3],[4]。
然而,尽管LLM在某些领域已经取得了初步的应用进展,但在肿瘤等高风险临床领域的应用仍存在争议。一些研究表明,LLM可以通过分析大量的医学文献和病例数据来协助医生进行早期癌症筛查、诊断和治疗决策,并为患者提供个性化的治疗计划[5]。例如,研究表明,像ChatGPT和DeepSeek这样的大型语言模型在癌症诊断和治疗过程中可以提供合理的诊断建议,在一些标准化病例分析中表现优异[6],[7]。然而,其他研究指出,尽管现有的LLM可以根据标准化指南提供治疗建议,但在面对动态和个性化的临床需求时仍存在局限性。特别是在处理复杂的、高风险的癌症治疗决策时,LLM的推理能力仍不足以替代经验丰富的临床医生的判断[8],[9]。因此,LLM在肿瘤学中的临床应用仍需进一步验证和探索。
本研究旨在评估DeepSeek R1和ChatGPT-4 o1在真实世界肿瘤治疗场景中的临床决策支持效果。通过构建多维评估框架,本研究重点验证这两种生成式AI模型在肿瘤治疗建议方面的准确性和临床适应性。本研究的核心目标是通过评估真实世界数据,探索LLM在肿瘤学中的实际应用价值,为大型语言模型在医学决策中的优化和实践提供科学依据。通过对这两种AI模型的性能评估,本研究不仅为医学AI的应用提供了新的视角,还为提高AI在复杂临床环境中的可靠性和有效性提供了理论支持。
章节片段
问题获取与构建
本研究的问题构建基于首都医科大学北京安贞医院和南充市中心医院附属南充医院的肿瘤中心的实际临床记录。数据集通过系统筛选并结构化处理成标准化的问答数据集。所有医疗记录均符合医学伦理规范,得到了医院伦理委员会的批准,并经过了严格的去标识化处理(包括完全
临床真实世界病例的总体评分
四位肿瘤专家独立评估了DeepSeek R1和ChatGPT-4 o1对6个临床真实世界病例的回答,同时评估了实际临床医生的诊断和治疗过程。评估结果见表1。统计分析显示,DeepSeek R1和ChatGPT-4 o1的准确性和可行性相似,与实际临床医生的评估结果相比没有统计差异,p > 0.05(图1)。
讨论
本研究通过多维评估系统表明,生成式大型语言模型在肿瘤科的临床疾病诊断和治疗中具有一定的应用价值。结果显示,DeepSeek R1和ChatGPT-4 o1在整体临床决策支持方面的表现与实际临床医生相当,略逊一筹,这表明它们在肿瘤学领域的临床诊断和治疗规划中具有潜在的应用前景。
结论
总之,我们的研究表明,由DeepSeek R1和ChatGPT-4 o1代表的生成式大型语言模型的诊断准确性总体上接近临床医生,显示出在癌症疾病临床决策支持方面的显著应用潜力。
数据可用性
支持本研究发现的数据可向相应作者请求获取。仅限研究用途,并需经过作者和机构审查委员会的批准,以确保患者隐私和数据安全。
伦理批准和参与同意
本研究严格遵循《赫尔辛基宣言》中规定的原则。数据收集和分析方法获得了首都医科大学北京安贞南充医院伦理委员会的伦理批准(伦理批准编号2025-049)。所有患者均自愿提供了书面知情同意。
作者声明
概念设计:SZ。资金提供:SZ,LP。数据收集与整理:LZ,CY。数据分析和解释:CC,TW,NX。手稿撰写:SZ,LZ,CY。手稿最终审核:所有作者。
资金支持
本研究得到了国家自然科学基金(项目编号82102171)和深圳市医学研究基金计划(项目编号A2302048)的支持。