人工智能驱动的虚拟现实(AI-VR)模拟平台在社会工作技能发展中的创新应用与开发

【字体: 时间:2025年09月30日 来源:Journal of Technology in Human Services 1.5

编辑推荐:

  本综述系统阐述了将人工智能(AI)与虚拟现实(VR)技术整合,以创建新一代社会工作技能培训模拟平台的开发过程与研究意义。文章深入探讨了现有2D与3D模拟技术的优势与局限,并详细介绍了该AI-VR平台如何通过语音交互(STT/TTS)、大型语言模型(LLM)和检索增强生成(RAG)等技术,克服传统模拟响应选项受限、缺乏真实感等痛点,旨在为社会工作教育提供更沉浸、灵活且有效的循证干预(EBI)训练工具。

  
引言
在过去的二十年里,社会工作教育领域越来越多地采用技术驱动的模拟来增强学生的学习效果。特别是虚拟现实(VR)技术,随着技术资源的进步和行业需求的变化,其应用变得愈发熟练和多样化。在社会工作教育中,VR模拟主要分为三种类型:虚拟病人、虚拟社区以及使用头戴式显示器(HMD)和/或传感设备的虚拟沉浸式环境。这些模拟工具,无论是二维(2D)还是三维(3D),都被用于教授和提升各种实践技能,帮助学生熟悉特定人群和社区,并应对如种族主义、歧视等系统性议题。
现有研究表明,基于VR的模拟在社会工作中既有显著益处,也存在一定局限性。为此,一所社会工作学院与模拟及人工智能(AI)工程团队合作,旨在通过整合AI能力来增强VR模拟,解决此前研究中注意到的一些限制,例如实现语音转文本(Speech-to-Text, STT)交互以取代预写选项选择、提供更细致的社会工作实践反馈,以及提升真实感和沉浸感。
文献回顾
2D与3D模拟在社会工作教育中的应用
近年来,大量研究聚焦于社会工作学生对二维模拟的学习和反应。这些模拟通过计算机桌面等应用,让学生接触虚拟病人和环境。例如,许多教育者使用第三方技术模拟公司SIMmersion的PeopleSim技术来指导学生进行各种干预(如认知行为疗法CBT、动机性访谈MI)和诊断(如物质使用、自杀倾向)的练习。其软件结合了非分支逻辑和交互式脚本对话,能根据学习者从选项列表中选择的回应,使虚拟人物展现出符合情境的情绪变化。研究表明,使用此类模拟的学生在特定技能类别上表现出更大的进步,并且整体上对模拟的接受度和可用性评价较高。
同样,另一家2D VR模拟技术公司Kognito也被广泛用于培训学生掌握特定实践工具,如用于评估物质误用的筛查、简短干预及转介治疗(SBIRT)模型。研究结果显示,学生在完成模拟训练后,其信心、感知能力和准备实施SBIRT的意愿均有显著提升。
此外,教育者还利用如Second Life之类的虚拟社区平台,让学生通过选择的虚拟化身(avatar)在同步环境中与其他学生互动,完成实践技能目标。这些2D技术模拟被证实能有效增强社会工作教育的教学框架。
相较之下,三维(3D)VR在社会工作教育中的应用虽不及2D技术普遍,但也显示出积极前景。教育者运用3D模拟让学生沉浸于特定的临床和个人场景(如家访)、地理环境及社区中,在其中导航、移动,并与虚拟客户或人群互动以完成一系列目标。研究表明,3D VR体验能有效提升学生的关系建立、治疗性、洞察力、社区工作、案例管理及支持性技能,并被学生评价为对其实习有益。
2D与3D VR模拟的益处与局限
VR模拟技术的益处包括其可及性、可重复使用而无客户安全风险、能针对单一技能进行练习、提供即时专家反馈、作为在线教育的重要教学资源、适用于实习前准备,以及能提供比角色扮演和演员模拟更真实的体验。
其局限性则主要与技术、实施设计及成本相关。2D应用将用户限制在屏幕空间内,可能削弱临场感(presence)和沉浸感(immersion)。学生通常无法直接与代表客户的虚拟化身对话,只能从多个选项中选择回应,这被许多学习者认为是限制性的且缺乏真实感。用户需要为操作技术做好准备,视觉清晰度取决于所用技术的精密程度,长时间使用可能导致部分用户恶心或头晕,且开发和设备成本对许多学院而言难以负担。
当前开发的VR模拟整合了最新的人工智能(AI)和VR技术,旨在保留其优势的同时,解决上述限制,特别是通过语音转文本(STT)交互,让学习者能够自由表达,而非从预设选项中选择。
模拟开发
支撑VR/AI模拟平台的教学法与理论
该VR/AI模拟平台的开发基于关键的教学技巧和理论原则。标准化客户在社会工作教育中的应用已有一段历史,无论是通过真人专业演员、角色扮演还是虚拟化身。模拟被证明是教授程序性能力(如接案、评估)和元能力(如自我调节、反思)的典范方法。
模拟学习与社会工作课程中的成人学习(Adult Learning)和经验学习(Experiential Learning)理论原则一致。它是一个变革性的过程,帮助成人学习者创造知识,并通过反思将模拟经验意义化,进而指导未来的实践。
VR的具体应用旨在最大化社会工作教育中的五个学习要素:临场感(Presence)、沉浸感(Immersion)、可用性(Usability)、共情(Empathy)和具身化(Embodiment)。这些要素与VR的学习 affordances 密切相关:物理临场感、社会临场感、具身化、互动和空间感知。它们大多植根于情境性理论(Situativity Theory),该理论考虑了认知负荷、情感投入和环境之间的互动与平衡。
创建模拟场景与结构
该VR/AI模拟的学习目标是提升学生与有心理健康问题的年轻人进行互动、建立关系、进行评估的技能,同时保持人本照护(Person-Centered Care)理念,即“提供尊重并响应个体患者偏好、需求和价值观的照护,并确保患者价值观指导所有临床决策”。
为此,社会工作团队设计了一个场景,可根据学习目标进行定制,以模拟符合人本照护框架的客户情境和临床策略。子主题包括:与客户建立信任关系、对客户表现出共情、优化沟通以增强提供者-客户关系、客户自决,以及整体性地看待客户。
团队使用生成式AI工具OpenAI的生成预训练变换器(GPT)来定制一个聊天机器人(chat bot),作为模拟的概念验证。通过上传相关研究文献和详细提示迭代,团队生成并审查了符合社会工作实践保真度的对话脚本,然后将其传递给模拟设计团队。
VR环境开发
VR模拟原型使用Unity游戏引擎开发,并与一个Laravel网络应用程序编程接口(API)集成。该API协调学习者与AI助手之间的对话。AI助手是一种OpenAI技术,允许创建定制的GPT,通过检索增强生成(RAG)架构模式来执行特定任务,这为大型语言模型(LLM)提供了对话的范围和知识语境,从而减少“幻觉”(hallucination)。
所有对话数据交易均使用端到端SSL安全证书进行加密。收集的所有数据均经过去标识化处理以保护用户隐私,但学习者会被告知其去标识化的对话数据将用于进一步训练AI助手。
模拟环境是一个临床办公室空间,客户由一个使用Daz3D、ZBrush、Marvelous Designer和Substance 3D Painter等软件设计的3D虚拟化身代表。为了支持与合成语音音频的唇形同步动画,创建了15个与音素视位(viseme)对应的混合形状(blend shapes),并加入了额外的表情混合形状。身体动画则利用了来自Mixamo的预存动画和使用OptiTrack系统进行的自定义动作捕捉数据。最终,虚拟化身被集成到Oculus LipSync for Unity中,以实现与语音同步的逼真嘴唇运动。
模拟中的AI集成
学习者进入模拟空间前会获得客户信息和会话背景。虚拟化身在场景加载后不久开始对话。对话脚本由“客户”AI助手在后台触发生成,然后使用亚马逊AWS Polly的文本转语音(TTS)技术合成为语音。
学习者发言后,其语音被OpenAI的Whisper实时转录。转录文本首先发送给一个“评估者”AI助手进行评分。评估完成后,系统会使用评估者生成的评分指标及其推理来更新对话历史。随后,VR应用程序会触发“客户”AI助手,将其生成的回复合成为语音,并赋予一个情绪值来触发虚拟化身的面部或身体姿势动画。
这两个AI助手(“客户”和“评估者”)均使用OpenAI的AI助手技术构建,当前版本使用gpt-4o-mini模型。其温度(Temperature)和TopP均设置为1.0,以控制生成响应的随机性和多样性。助手采用RAG方法,通过研究论文知识库来增强其关于受试者概况、治疗史以及临床实践中信任和参与水平的知识。
对话的自动评分
自动化评分计划最初由人类主题专家通过“人在循环”(human-in-the-loop)网络应用程序将学习者的回应评分最优、中性或次优,并提供反馈。这将为AI“评估者”助手创建一个训练集,帮助其消除转录本中的变量歧义,从而实现自动准确评分。
学习者回应至少有两种类型:封闭式和开放式,每种都有各自的评分量表和权重。评分可以从每次对话和每位学习者中提取,并聚合到CSV文件中,以便上传至学习管理系统(LMS)。
人在循环组件
“循环”(The Loop)是一个React网络应用程序,让主题专家能够审查和评级在沉浸式VR模拟器中发生的人类受试者与AI助手之间的对话。专家可以整体评级,也可以精细到单个对话回合。
人类专家将从两个方面进行评级:
  1. 1.
    对用户(学习者)的回应进行评级,使用最优、中性、次优三级指标,依据社会工作文献和专家意见制定的量规进行衡量。
  2. 2.
    对AI助手(演员)生成的回应进行评级,标记那些不符合场景期望或不适当的回应(如产生AI幻觉)。
专家评分和贡献存储在与对话记录配对的数据库中。评级后的转录本将以JSON格式导出,反馈给AI评估者和演员助手进行后续训练。
经验教训与下一步行动
开发挑战与见解
当前迭代的核心问题是延迟(Latency)。用户输入需经过多个步骤处理,导致体验响应延迟。下一个迭代版本计划移除Python脚本,让Unity模拟直接与OpenAI API交互,并使用其“流式”(streaming)选项,同时采用更新的Whisper和ElevenLabs技术来改善语音交互,从而解决延迟问题并提升用户体验。
第二个挑战涉及虚拟化身的图形质量。Unity 2022在渲染自定义化身时效果不佳。测试表明,升级到Unity 6.0并使用Reallusion Character Creator 4及其Unity插件,能显著提升化身在WebGL和MetaQuest头显中的质量。
开发此类新技术模拟是一项昂贵且耗时的工程。当前的VR/AI模拟在投入学生试点时成本将远超10万美元,且机构每年还需支付驱动AI的API令牌费用。整个开发过程耗时近两年,学术机构庞杂的流程和缓慢的节奏是主要影响因素。
下一步行动
该VR/AI模拟平台将由拥有与抑郁青年工作实践知识和技能的社会工作专业人士进行多次测试。“人在循环”阶段将有助于调整AI聊天机器人的组件。此后,该平台将在大学MSW项目中进行学生试点。
试点完成后,作者计划进行一项正式的混合方法评估研究,以评估学生和专业社会工作者实践技能、知识和反压迫、多元、公平与包容(ADEI)实践的获取情况。研究将分析调查数据、对话记录,并进行焦点小组访谈,以了解学习者的感知和学习体验。日志文件数据也将被分析,以改进AI助手质量,并为未来平台减少人为干预生成协议。
大型语言模型(LLM)中的偏见问题将通过检索增强(RAG)和“人在循环”干预来缓解。
对社会工作教育与实践的启示
此VR/AI项目响应了呼吁,旨在学习AI的风险与收益,参与产品开发,并严格研究基于AI的模拟的有效性和局限性。它对社会工作培训和教育有多重启示:AI适合教授基础技能,但需仔细搭建脚手架,教育者需密切关注其益处和风险。
该技术有潜力作为教学工具,补充实习中可能不均等的机会,让学生接触特定人群。它可以被纳入核心实践课程,作为实践关键概念的并行过程。该平台还可编码融入反压迫和社会正义视角,以更好地操作ADEI框架。此外,它还能为混合和在线社会工作培训项目提供所需的灵活性和可及性。
在专业层面,该模拟可用于可靠地培训临床社会工作者,提升其与人本照护相关的核心技能,并可扩展至其他循证实践和社会工作技能,为学习者提供多样化的机会和一致的反馈。
结论
本文介绍了一个VR/AI平台的开发,该平台旨在保留2D和3D模拟优势的同时,通过实现语音转文本交互来解决早期VR模拟的局限性。鉴于需要继续研究3D VR模拟在社会工作教育中的开发和使用,作者详细描述了与设计技术人员和工程师合作开发VR/AI 3D模拟的过程。尽管开发过程漫长且成本高昂,但开发合作具有诸多优势。试点测试及后续研究阶段将为该平台在教授学生特定干预措施、提升其接案、评估和ADEI实践技能方面的有效性提供信息。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号