《BMC Digital Health》:Generative AI in healthcare: effect of explanations and the role of AI on trust, perceived privacy, and intent to use
编辑推荐:
摘要
背景 人工智能(AI),如ChatGPT,在医疗保健领域的应用迅速增长,然而公众对信任、隐私以及使用AI进行医疗目的的使用意愿的认知仍未被充分探索。本研究旨在调查ChatGPT的角色(诊断工具 vs. 解释助手)以及提供的解释水平(why解释、conf
摘要
背景 人工智能(AI),如ChatGPT,在医疗保健领域的应用迅速增长,然而公众对信任、隐私以及使用AI进行医疗目的的使用意愿的认知仍未被充分探索。本研究旨在调查ChatGPT的角色(诊断工具 vs. 解释助手)以及提供的解释水平(why解释、confidence解释或无解释)如何影响这些关键因素。
方法 采用受试者内实验设计,运用绿野仙踪(Wizard-of-Oz, WoZ)方法论系统性地操纵ChatGPT的角色(诊断工具 vs. 解释助手)和解释水平(无解释、confidence解释、why解释)。从英国公众中招募了98名参与者,通过在线调查评估假设的医疗场景。因变量(信任、感知隐私和使用意愿)使用在本研究中具有满意内部一致性的验证量表进行测量。采用重复测量双因素方差分析(repeated-measures two-way ANOVA)检验AI角色和解释水平的主效应和交互效应。
结果 当ChatGPT作为解释助手相比作为诊断工具时,信任(F(1, 97) = 12.40, p < 0.001)和使用意愿(F(1, 97) = 14.61, p < 0.001)显著更高。在所有类型的解释中,“confidence”解释总体上产生了最高的感知隐私(F(1.84, 178.85) = 4.22, p = 0.019)。AI角色与解释水平之间的交互效应对所有结果均显著(p < 0.001)。在所有条件下,当ChatGPT作为解释助手时,“why”解释在信任、感知隐私和使用意愿上得分最高。有趣的是,当ChatGPT作为诊断工具时,不提供解释相比提供“why”解释导致更高的信任、感知隐私和使用意愿。
结论 本研究强调了在医疗保健AI设计中上下文的重要性。ChatGPT作为解释助手时更受信任和偏好,尤其是在提供“why”或“confidence”解释时。研究结果表明,将AI整合到医疗保健中应强调透明度和上下文敏感的角色,以建立公众信任并优化可用性。
**论文解读:生成式人工智能在医疗保健中的角色与解释水平对信任、隐私感知及使用意愿的影响**
**研究背景与问题**
近年来,生成式人工智能(Generative AI),特别是大型语言模型(Large Language Model, LLM)如ChatGPT,在医疗保健领域展现出巨大潜力,涵盖诊断、临床、手术、预测和康复等多个方面。然而,尽管技术发展迅速,公众对AI用于医疗目的时的信任、隐私感知和使用意愿尚未得到充分研究。当前存在的主要问题包括:专业界对AI的 skepticism、公众对AI机制理解的有限性、对偏见和伦理问题的担忧,以及数据隐私威胁等。这些障碍影响了用户对AI的信任和采纳。先前研究在解释水平对信任的影响上存在分歧,例如Bussone等人发现详细解释可提高医疗专业人员的信任,而Zhang等人则报告解释对患者信任无显著影响。此外,关于AI角色(如作为独立诊断工具还是辅助解释工具)如何影响用户感知的研究尚不充分。因此,本研究旨在系统探索ChatGPT的角色(诊断工具 vs. 解释助手)和解释水平(why解释、confidence解释或无解释)如何交互影响用户的信任、感知隐私和使用意愿,为优化生成式AI在医疗保健中的整合提供实证依据。
**研究内容与结论**
研究人员通过一项受试者内实验设计,运用绿野仙踪方法论(Wizard-of-Oz, WoZ)操控自变量,招募了98名英国公众参与者,评估12个假设的医疗场景。研究发现,当ChatGPT作为解释助手时,用户的信任和使用意愿显著高于其作为诊断工具时;在感知隐私方面,“confidence”解释总体得分最高。AI角色与解释水平之间存在显著交互效应:当ChatGPT作为解释助手时,“why”解释在信任、隐私和使用意愿上均为最高;而当作为诊断工具时,不提供解释反而优于提供“why”解释。这些结果表明,AI在医疗保健中的角色定位和解释设计需要根据上下文进行精细化调整。论文发表在《BMC Digital Health》。
**关键技术方法**
本研究采用受试者内3(解释水平:why、confidence、无解释)×2(AI角色:诊断工具 vs. 解释助手)实验设计。使用绿野仙踪(WoZ)方法预定义ChatGPT的输入和输出,以系统性地控制解释水平和角色变化。参与者来自英国公众(通过伯恩茅斯大学SONA研究参与系统和社交媒体招募),排除医学生或医疗从业者以减少偏差。因变量(信任、感知隐私、使用意愿)使用经过验证的量表测量,内部一致性良好(Cronbach's α > 0.70)。数据采用重复测量双因素方差分析(repeated-measures two-way ANOVA)处理。
**研究结果**
**信任(Trust)**:重复测量双因素方差分析显示,AI角色对信任有显著主效应(F(1, 97) = 12.40, p < 0.001, η
p2 = 0.113),解释助手下信任更高(M = 2.93 vs. 2.79)。解释水平主效应不显著。交互效应显著(F(1.68, 162.71) = 42.42, p < 0.001, η
p2 = 0.304)。事后检验表明:当作为解释助手时,“why”解释产生最高信任(M = 3.14),显著高于“confidence”解释(M = 2.89)和无解释(M = 2.75);当作为诊断工具时,“why”解释信任最低(M = 2.66),显著低于“confidence”解释(M = 2.85)和无解释(M = 2.85)。无解释条件下,诊断工具信任高于解释助手(2.85 vs. 2.75);“why”解释条件下,解释助手信任高于诊断工具(3.14 vs. 2.66)。
**感知隐私(Perceived Privacy)**:AI角色主效应不显著。解释水平主效应显著(F(1.84, 178.85) = 4.22, p = 0.019, η
p2 = 0.042),“confidence”解释得分最高(M = 3.99)。交互效应显著(F(2, 194) = 33.87, p < 0.001, η
p2 = 0.259)。当作为解释助手时,“why”解释(M = 4.05)和“confidence”解释(M = 4.01)显著高于无解释(M = 3.83);当作为诊断工具时,“why”解释(M = 3.79)显著低于“confidence”解释(M = 3.97)和无解释(M = 4.02)。无解释条件下,诊断工具感知隐私高于解释助手(4.02 vs. 3.83);“why”解释条件下,解释助手高于诊断工具(4.05 vs. 3.79)。
**使用意愿(Intent to Use)**:AI角色主效应显著(F(1, 97) = 14.61, p < 0.001, η
p2 = 0.131),解释助手下使用意愿更高(M = 3.00 vs. 2.82)。解释水平主效应不显著。交互效应显著(F(1.74, 168.61) = 28.60, p < 0.001, η
p2 = 0.228)。当作为解释助手时,“why”解释使用意愿最高(M = 3.23),显著高于“confidence”解释(M = 2.95)和无解释(M = 2.81);当作为诊断工具时,“why”解释(M = 2.73)和“confidence”解释(M = 2.80)显著低于无解释(M = 2.94)。无解释条件下,诊断工具使用意愿高于解释助手(2.94 vs. 2.81);“why”解释和“confidence”解释条件下,解释助手均高于诊断工具。
**讨论与结论**
研究人员在讨论部分指出,本研究揭示了AI角色和解释水平对信任、感知隐私和使用意愿的显著交互作用。当ChatGPT作为解释助手时,用户更信任并更愿意使用,尤其是当其提供“why”或“confidence”解释时,这与先前研究(如Yang等人)一致,即AI作为支持人类诊断的工具更受青睐。感知隐私方面,“confidence”解释整体最高,可能因其在提供足够信息以建立信任的同时,避免了过度暴露敏感细节,符合隐私计算模型(Privacy Calculus Model)和不确定性减少理论。当ChatGPT作为诊断工具时,不提供解释反而优于提供“why”解释,这可能反映了用户对诊断场景中详细解释的侵入性担忧。这些发现强调了在AI设计中角色和解释的上下文敏感性。研究结论指出,将ChatGPT定位为解释助手并精心设计解释水平,可以增强信任、感知隐私和使用意愿,对促进生成式AI在医疗保健中的道德采纳、减轻医疗专业人员负担、平衡患者满意度与数据隐私具有重要实践意义。