《Surgical Endoscopy》:Artificial intelligence and chatbots in general surgery: a survey among surgeons in Germany, Austria and Switzerland
编辑推荐:
背景:人工智能(AI)和大型语言模型(LLM)与外科实践的整合日益受到关注,但其在现实世界中的使用模式和障碍仍未被充分描述。这项多国调查评估了德语国家普通外科医生自我报告的人工智能/大型语言模型使用情况、感知到的益处以及对常规实施的要求。
方法:在2025年
背景:人工智能(AI)和大型语言模型(LLM)与外科实践的整合日益受到关注,但其在现实世界中的使用模式和障碍仍未被充分描述。这项多国调查评估了德语国家普通外科医生自我报告的人工智能/大型语言模型使用情况、感知到的益处以及对常规实施的要求。
方法:在2025年6月至9月期间,对德国、奥地利和瑞士大学医院的外科医生进行了一项包含16个项目的在线调查。
结果:在3831名受邀的外科医生中,分析了323份完整回复(回复率8.7%)。自我报告的人工智能使用很常见:58.5%报告偶尔使用,28.2%报告经常使用。最常见的应用是语音识别(65.3%)和聊天机器人(62.8%)。预期的益处主要集中在简化文档工作(94.4%)、减少行政时间(84.2%)与负担(83.0%)以及提高诊断准确性(70.6%)。ChatGPT是主要的聊天机器人(89.8%),聊天机器人的使用被评为有帮助(69.6%),最常见的用例是科学写作(51.4%)。常规采用人工智能的主要障碍包括与现有系统整合不足(77.1%)、法律/数据保护不确定性(65.9%)以及缺乏经过验证的应用(59.1%)。最重要的要求是系统可靠性(76.2%)、明确的法律框架(72.1%)、改进的技术基础设施(68.4%)和透明度(58.5%)。大多数受访者预计人工智能将改善外科护理质量(82.4%)并支持结构化的人工智能培训(85.1%)。
结论:德语国家的普通外科医生普遍报告使用了人工智能和基于大型语言模型的聊天机器人,主要用于低门槛、效率导向的任务,如语音识别、文档工作、科学写作和其他基于文本的生产力任务。要更广泛地整合到外科工作流程中,需要可互操作的实施方案、经过验证的临床级应用、法律清晰度以及结构化教育。
**研究背景与目的**
随着人工智能(AI)和大型语言模型(LLM)技术的快速发展,其在医学领域,特别是普通外科(General Surgery)中的应用潜力日益显现。AI技术涵盖了从机器学习(ML)和计算机视觉(CV)用于结构化数据分析和图像解读,到LLM用于处理自然语言、辅助临床与科研写作、患者沟通及教育等多种场景。尽管前景广阔,但AI在外科实践中的真实采纳情况受到算法性能之外诸多因素的制约,包括数据保护、法律责任、模型透明度以及跨机构验证等。对于LLM工具,还涉及事实可靠性、偏见、作者身份和用户培训等问题。虽然其他医学专业已有相关调查,但关于普通外科医生如何使用AI、他们认为哪些任务最有前景以及哪些障碍限制了常规采纳的实证证据仍然匮乏。为此,研究人员在德国、奥地利和瑞士开展了一项多国调查,旨在评估外科医生当前及计划中AI与基于LLM的聊天机器人使用情况、在患者护理内外感知到的益处,以及对更广泛AI采纳的要求。该研究发表于《Surgical Endoscopy》。
**关键技术方法**
研究人员在2025年6月26日至9月26日期间,通过“SoSci Survey”网络应用平台进行了一项前瞻性在线调查。调查遵循《通用数据保护条例》(GDPR),并依据《互联网电子调查结果报告清单》(CHERRIES)报告结果。调查邀请通过电子邮件发送给德国38所、奥地利5所、瑞士5所大学医院中所有可公开获取邮箱的普通外科医生。问卷共16个项目,以德语呈现,允许单项或多项选择。数据分析采用描述性统计,分类变量以绝对数和百分比表示。使用卡方(χ
2)检验比较不同外科培训级别(住院医师、主治医师、高级医师、科室主任)组间的差异,并对有序组进行趋势检验。显著性水平设定为p<0.05。由于是探索性研究,未对多重检验进行校正。数据分析使用R软件(版本4.4.3)完成。
**研究结果**
**参与外科医生的人口统计学特征**
在3831名受邀外科医生中,334人回复(回复率8.7%),其中323人数据完整纳入分析。受访者主要为住院医师(41.5%)和高级医师(37.5%),其次是主治医师(15.2%)和科室主任(5.9%)。自我报告的AI使用普遍:58.5%偶尔使用,28.2%经常使用。最常见的AI应用领域是语音识别(65.3%)和聊天机器人/大型语言模型(62.8%),其次是文献分析/证据挖掘(39.9%)和基于图像的诊断(39.6%)。仅6.5%的受访者报告从未使用过AI。外科规划(p<0.001)和图像引导手术(p=0.009)的应用模式在科室主任中显著更常见。大多数受访者自评AI知识为“基础”(41.5%)或“一般”(39.9%)。
**外科医生对AI在患者护理内外的预期益处**
在患者护理方面,最常预期的AI益处是减少行政任务(83.0%)和提高诊断准确性(70.6%)。超过一半的受访者预期AI能改善手术风险分层(52.3%)和提高手术精确度(51.4%)。对优化个体化治疗策略的预期随专业经验增加而显著上升(p=0.003),科室主任中选择比例最高(73.7%)。在患者护理之外的领域,最常被提及的益处是简化文档工作(94.4%),科室主任对此项的认可度显著较低(78.9%;p=0.007)。其他常见益处包括减少行政任务时间(84.2%)、改进专业文献汇编(70.6%)以及简化医疗服务计费流程(66.9%)。
**外科实践中基于AI的聊天机器人**
在聊天机器人使用中,OpenAI的免费版ChatGPT(61.9%)占主导地位,其次是其付费版(27.9%)。其他聊天机器人使用频率较低。科室主任显著更频繁地报告使用Microsoft Copilot(p=0.006)和Google Gemini(p=0.044)。聊天机器人的最常见应用是科学写作(51.4%),其次是准备医学文本(44.6%)、翻译(38.4%)、研究(35.3%)和教学/培训(31.0%)。随着外科培训级别升高,准备医学文本(p=0.019)和科学写作(p=0.038)的应用呈显著下降趋势。大多数受访者(69.6%)对AI聊天机器人在日常外科实践中的使用评价积极。
**常规AI采纳的障碍与要求**
常规AI使用最常见的障碍是与现有系统整合不足(77.1%),其次是数据保护和法律不确定性(65.9%)以及缺乏经过验证的应用(59.1%)。近一半受访者提到了缺乏医疗用途批准(47.1%)和缺乏用于AI训练的高质量标注数据集(44.0%)作为额外障碍。担心AI可能损害后代外科医生技能的比例为29.7%,且随外科培训级别升高而显著增加(p=0.034)。科室主任比住院医师更频繁地将额外成本视为障碍(p=0.010)。对AI采纳最重要的要求是系统可靠性(76.2%)、明确的法律框架(72.1%)、改进诊所技术基础设施(68.4%)和决策透明度(58.5%)。与科室主任相比,住院医师更频繁地要求改进技术基础设施(p=0.002)和上级/诊所管理层的支持(p=0.001)。
**AI使用的潜力与未来前景**
关于近期AI在外科中最有前景的应用潜力,大多数受访者认为是研究(70.0%)。超过一半的受访者认可质量保证(59.8%)和术前阶段(56.3%)。近一半受访者选择了培训与模拟(48.0%)和术后阶段(46.7%),而术中阶段选择较少(35.6%)。对术中阶段应用的认可度随外科培训级别升高而显著增加(p=0.015)。大多数受访者(82.4%)预计AI将改善外科护理质量,并(85.1%)赞同需要结构化的AI培训。关于AI在外科中应用的5年展望 predominantly 积极(86.7%)。
**讨论与结论**
研究讨论指出,在323名以住院医师和高级医师为主的受访者中,自我报告的AI使用频繁,表明新旧两代外科医生都在接触AI。然而,使用主要集中在语音识别和聊天机器人等低门槛工具上,这提示AI采纳仍处于早期阶段而非深度工作流程整合。数据中的层级信号(如科室主任在手术规划和图像引导手术等更高级AI领域参与度显著更高)表明,实施可能是“自上而下”驱动的,需要机构资源和领导力。尽管AI接触率高,但AI素养仍处于中等水平,存在“采纳先于认知”的现象,这与先前调查一致。外科医生主要预期AI带来近期、工作流程导向的收益,在患者护理中最主要的预期益处是减少行政负担和提高诊断准确性。在患者护理外,对简化文档和减少行政时间的期望更为突出。外科医生似乎主要将AI视为效率提升工具而非临床决策替代品。科室主任显著更优先考虑AI用于个体化治疗策略,对文档简化的认可度较低,这可能反映了任务分配的差异。
基于AI的聊天机器人使用频繁,ChatGPT占主导地位,约70%的外科医生认为其有益,目前主要作为生产力和沟通工具被采纳,而非“临床决策引擎”。这种“生产力优先”的方法与其他调查一致。然而,当前证据也强调了重大局限性,包括准确性、可靠性(如“幻觉”问题)、可读性、个性化不足以及伦理和治理问题。
调查确定了系统整合不足、法律与数据保护不确定性以及经过验证的应用有限是AI常规融入外科工作流程的主要障碍。对技能退化和额外成本的担忧在科室主任中更显著,凸显了文化经济因素与技术障碍并存。虽然整合不足是最常选择的障碍,但问卷未评估当前AI工具在外科工作流程中的具体位置或整合问题在日常实践中的表现。这些发现与先前调查结果一致。受访者将可靠性、明确的法律框架、基础设施和透明度列为AI采纳的最重要要求。因此,采购AI系统需要外部验证、校准报告、审计追踪以及与外科任务相称的可解释性。在监管方面,欧盟《人工智能法案》(2024年8月生效)的风险合规路径和治理重点直接对应了受访者报告的医学法律不确定性。
外科医生认为AI最直接的潜力在于研究、质量保证和术前阶段,而术中应用优先级较低。这种模式表明,外科医生预期从能够服务大量患者的AI(如信息合成、风险预测、质量指标)中获得更快回报,而非技术复杂的“手术室辅助”应用。对术中AI的接受度随外科培训级别升高而增加,表明面向手术室的系统可能由资深外科医生推动。大多数受访者对AI改善外科护理质量持乐观态度,并给出积极的5年展望。然而,这种乐观预期可能仍依赖于验证和对外科工作流程的适用性,并不意味着已准备好迎接自主系统。因此,未来工作应更侧重于将AI嵌入经过验证的闭环临床工作流程,而非孤立的任务自动化。调查中对结构化AI培训的强烈需求(85.1%)表明,外科医生认识到存在能力差距,若工具扩散快于正规教育,此差距可能扩大。
**研究结论**:德语国家的普通外科医生普遍报告使用了人工智能,特别是语音识别和基于大型语言模型的聊天机器人,主要用于文档工作、科学写作和其他基于文本的生产力任务,而非经过验证的临床决策支持或术中应用。为了实现更广泛的人工智能采纳,外科医生强调需要可互操作的基础设施、经过外部验证的临床级应用、法律和数据保护的清晰度以及结构化的人工智能教育。未来的工作应侧重于将人工智能嵌入经过验证的闭环临床工作流程,而非孤立的任务自动化。