
-
生物通官微
陪你抓住生命科技
跳动的脉搏
量化人机协作深度:基于行为科学的文本对话机器人协作强度测评量表开发与验证
【字体: 大 中 小 】 时间:2025年07月26日 来源:International Journal of Human-Computer Studies 5.3
编辑推荐:
推荐:本研究针对人机协作中用户参与度难以量化的问题,开发了基于项目反应理论(IRT)的CI-Tex量表,通过两项研究(N=599)验证其单维性(信度0.84-0.87),揭示文本对话机器人(TCAs)协作强度与语音助手CI(r=0.57)、AI态度(r=0.42)的关联,为匹配用户与AI协作场景提供标准化工具。
随着ChatGPT等对话式AI(Conversational Agents, CAs)从工具性使用向协作伙伴转型,一个关键科学问题浮出水面:如何区分用户是"真正协作"还是"单纯使用"?传统技术接受模型(如UTAUT)仅能测量采纳意愿,而无法捕捉协作过程中的行为深度。这种测量缺口使得企业难以优化AI系统设计,也无法精准匹配高协作倾向用户与复杂任务场景。
为破解这一难题,德国实验经济研究协会(German Association for Experimental Economic Research e.V.)的研究团队开创性地开发了CI-Tex量表。这项发表在《International Journal of Human-Computer Studies》的研究,基于协作智能理论框架,将文本对话机器人(Text-based CAs, TCAs)交互中的用户行为解构为参与度(engagement)、透明度(transparency)、过程控制等五个维度,并运用项目反应理论(Item Response Theory, IRT)构建具有行为难度梯度的20项量表。通过双阶段研究设计(Study 1: N=284校准;Study 2: N=315验证),首次实现对人机协作强度的标准化测量。
关键技术方法包括:1) 基于Rasch模型的IRT分析校准项目难度参数;2) 平行分析验证单维性;3) 差异项功能(DIF)检测消除性别偏差;4) 通过Q3残差相关评估局部独立性。研究队列来自Prolific平台12个月内使用过TCAs的美国用户。
研究结果揭示:
这项研究突破了传统技术接受测量的局限,首次实现从"是否使用"到"如何协作"的范式跨越。其创新价值体现在:1) 开发可扩展的IRT量表架构,支持未来纳入新兴协作行为;2) 揭示动机特质对协作模式的预测作用;3) 为AI界面设计提供行为阈值数据,例如发现中等协作用户较少进行多轮内容共创。正如作者指出,该量表既能辅助企业实现"人机匹配"的人才配置,又能通过项目难度分析识别交互瓶颈,对推动负责任AI发展具有方法论意义。未来研究可延伸至跨文化验证、行为日志关联分析等领域,进一步拓展协作智能测量的边界。
生物通微信公众号
知名企业招聘