生成式人工智能在高等教育中的应用意愿影响因素研究:基于扩展AIDUA模型的实证分析

【字体: 时间:2025年09月18日 来源:Frontiers in Psychology 2.9

编辑推荐:

  本研究通过整合认知评价理论(CAT)与人工智能接受度(AIDUA)模型,创新性地提出技术性能(生成质量、情境感知)和社会伦理(伦理风险、算法可解释性)双维度框架,揭示了中国大学生对生成式人工智能(AIGC)的认知评价机制。研究发现技术性能维度(β=0.53)和伦理可解释性(β=0.41)是绩效期望的核心预测因子,而伦理风险感知具有双重威胁效应(β=-0.25/0.33)。多组分析表明性别、学科背景、民族和政治身份显著调节评价路径,为AIGC教育应用提供了差异化实施策略。

  

引言

生成式人工智能(AIGC)作为颠覆性技术范式正在重塑现代教育格局。其核心系统属性——基于概率而非确定性的信息生成机制——与所有传统教育技术存在本质区别。这种区别导致其应用存在内在矛盾:AIGC既能催化个性化学习,其固有的不透明性和不可预测性又同时引发学者对数据隐私、算法偏见和信息可靠性的深度担忧。

传统技术接受模型(TAM)在评估AIGC时遭遇理论瓶颈。这些模型以感知有用性和易用性为核心逻辑,无法有效捕捉个体面对AIGC时进行的认知权衡过程——即在技术赋能机遇与潜在伦理风险威胁之间的复杂权衡。认知评价理论(CAT)作为元理论定义了评价过程但未提供具体技术情境变量,而人工智能接受度(AIDUA)模型虽克服了TAM对复杂技术解释的局限,但其变量集主要针对功能边界清晰的"分析型工具"设计。

当评估对象转变为能够生成全新内容的概率性"创造主体"时,用户评价焦点发生根本性转变。根据CAT理论,初级评价核心在于个体对刺激(AIGC)的"机遇/挑战"与"威胁"维度的权衡。AIDUA现有变量在两方面存在理论盲区:缺乏对"技术效能"(机会维度核心判断)的直接评估,以及缺乏对"新兴风险"(威胁维度关键评价)的系统考量。本研究提出的"技术性能"和"社会伦理"双维度正是为了填补这些理论空白。

理论基础与研究假设

理论框架:整合认知评价与扩展AIDUA的分层模型

研究采用AIDUA模型作为基础内容框架,提取绩效期望、努力期望等核心信念变量,社会影响、享乐动机、拟人化等关键前因因素,以及情感和最终接受度等关键结果变量。为解决AIDUA模型机制性局限,研究整合CAT理论为其提供微观解释机制。CAT理论的核心原则——初级评价(评估利害关系)和次级评价(评估应对潜力)的序贯互动——详细解释了外部线索如何心理转化为核心信念。

CAT理论为模型扩展提供优异理论延展性。其"评价"核心概念不仅允许引入新变量,更逻辑上要求识别特定技术情境中对用户评价最决定性的信息输入。当评价对象从"确定性分析工具"转变为能生成新内容的"创造主体"时,用户评价焦点发生根本转变。用户初级评价必然围绕AIGC带来的"机遇/挑战"和"威胁"基本维度。

技术性能维度(生成质量、情境感知)捕捉用户对AIGC核心"机遇"的评价,社会伦理维度(感知伦理风险、算法可解释性)捕捉用户面对新型"威胁"时的认知和应对评价。这两个维度的整合是理论驱动且必要的响应,作为经典AIDUA前因的平行补充,共同构成更完整的用户认知评价信息输入集。

最终整合模型构建为概念分层框架,遵循从外部刺激到认知处理,最终到信念形成和行为响应的基础因果链。模型解构为四个分析层:前因信息线索(刺激层)、认知评价机制(处理层)、核心信念形成(即时认知响应层)和情感行为结果(最终响应层)。这种分层架构既展示协同作用(AIDUA提供评价内容,CAT提供评价过程),又具有清晰层次结构。

假设发展:CAT框架内的机制推导

假设推导严格遵循四层分层框架,明确展示认知评价机制如何处理前因信息线索以产生核心信念,最终连接这些信念到情感行为结果。

经典AIDUA前因作为评价输入:社会影响提供关键外部社会线索。在初级评价中,来自同伴或专家的积极信号被评价为情境利益证据,将AIGC使用框架化为有价值和社会期望行动,这种评价增强其感知效用并导致更高绩效期望。在次级评价中,他人的成功经验(替代学习)被评价为高应对潜力信号,导致相信自己也能以合理努力掌握技术的信念,从而产生更低努力期望。

享乐动机作为强大情感输入。在初级评价中,享受预期被评价为重要利益本身,这种评价增加技术整体绩效期望。在次级评价中,这种内在吸引力被评价为将潜在认知"成本"转化为愉快挑战的因素,增强感知应对资源并降低感知难度。

拟人化通过将人类特征赋予AIGC,从根本上改变其评价。在初级评价中,"伙伴"被评价为比简单工具更有能力和能动性,增强其潜在利益感知。在次级评价中,与类人代理互动被评价为更自然直观,降低预期使用难度。

AIGC特定维度作为评价输入:社会伦理维度捕捉威胁和不确定性评价。感知伦理风险作为评价潜在"威胁"的主要输入,算法可解释性作为评价和减少"不确定性"的关键。在初级评价中,高伦理风险被评价为显著威胁,直接破坏任何潜在利益;高可解释性被评价为不确定性缓解器,建立信任并增强系统价值感知。在次级评价中,高伦理风险被评价为增加应对认知负担;可解释可预测系统被评价为更可控,显著降低有效使用所需心智努力。

技术性能维度提供最直接客观证据。在初级评价中,高技术性能被评价为系统效用的明确证明,强烈支持积极利益判断。在次级评价中,产生准确情境感知结果的系统被评价为减少用户持续校正和心理调整需求,大幅降低感知认知成本。

核心信念到最终结果的路径:根据CAT理论,认知判断逻辑上先于情感反应。效用(绩效期望)和易用性(低努力期望)的积极判断应引发满意和自信等积极情感。这种积极情感状态进而促进趋近导向行为响应,表现为最终接受使用技术意图。

个体差异的调节作用:多组分析论证

虽然提出整合框架描绘了AIGC接受核心心理机制,但这些过程并非发生在社会真空中。为测试模型边界条件并深化其在独特中国语境下的解释力,研究提出多组分析。调节变量选择——性别、学科背景、民族和政治身份——是深思熟虑的,每个代表关键社会身份,在中国特定社会文化结构内系统塑造个体认知框架和价值层次。

性别差异在全球技术感知中得到充分记载。传统研究报道男性更受工具性因素(如感知有用性)影响,而女性可能更重视易用性和社会影响。最近AI情境研究强调女性常表达更高伦理关注度,感知算法决策更大风险。

学科背景在中国高度结构化教育体系中不仅是知识差异,更是不同认知范式的培养。STEM领域学生受训于效用聚焦、问题解决框架,可能放大绩效相关评价重要性。人文学科学生明确受训更批判任何现象的社会伦理维度,使其接受度对感知伦理风险和算法可解释性更敏感。

民族作为社会身份关键维度与独特文化遗产和集体叙事相连。汉族深度融入主流技术和商业环境,对新技术的评价常聚焦个体效用。许多少数民族群体主要关注独特文化身份保存和集体形象准确表征。鉴于AIGC可能延续甚至放大文化刻板印象,少数民族用户理性上对这种集体文化风险更敏感。

政治身份超越政治标签根本性塑造个体认知框架。中国共产党成员身份培养高度社会责任感和与国家战略目标一致性。因此,党员和非党员员工采用不同认知计算来评价AIGC。非党员评价锚定个人效用初级计算。党员采用双计算视角,整合个人效用与次级社会政治评价,社会伦理维度高阶考虑被更重加权。

研究设计与方法

研究采用定量研究方法,使用问卷调查收集数据,通过结构方程建模(SEM)和多组分析进行实证分析。采用横断面设计捕捉学生对AIGC的特定时间点感知态度。

参与者与抽样程序:目标人群为中国大学生。采用多阶段分层随机抽样策略,首先基于3(区域:东、中、西部)×3(类型:综合、理工、师范)矩阵将大学分为九层,从每层随机选择1-2所大学,最终确定15所机构。通过教务办公室或学生顾问向各学科随机选择学生分发问卷链接。

通过"问卷星"专业在线问卷平台管理调查。2024年6月至10月期间共分发480份问卷。数据清洗后排除18份无效问卷,最终样本462份,有效回复率96.3%。最终样本在性别、年级和学科背景方面呈现良好多样性。

工具开发与测量:调查工具包括人口统计信息和核心构念测量量表。所有核心构念使用改编自成熟广泛验证英语量表的项目测量,确保理论基础和内容效度。量表适应和翻译过程严格遵循跨文化研究范式。

所有测量项目采用五点李克特量表评分。认识到感知伦理风险等构念可能受社会期望偏差影响,数据收集过程嵌入多个程序补救措施。

数据分析策略:数据分析使用SPSS 27.0和AMOS 24.0软件进行,分阶段进行:初步数据筛查和CMB测试、层次数据效应测试、测量模型分析、结构模型和多组分析。

伦理考量:研究严格遵守所有学术伦理标准,获得西安交通大学正式批准。实施多个程序和伦理保障措施,不仅保护参与者权利,还通过主动缓解潜在响应偏差增强数据方法严谨性。

结果

实证研究发现分五个顺序阶段呈现:初步诊断测试确保数据完整性;描述性统计和相关矩阵呈现;通过CFA严格评估测量模型心理测量特性;结构模型估计评估以检验研究假设;多组分析探索关键人口特征调节影响。

初步数据诊断:Harman单因子测试显示第一个因子仅解释31.7%方差,远低于40%阈值,表明CMB不显著。计算方差膨胀因子(VIF)评估多重共线性,所有VIF值1.24-2.81,远低于临界值5,确认不存在多重共线性问题。测试层次数据效应,主要结果使用意愿ICC(1)为0.021,远低于0.059阈值,证明使用标准单层SEM合理。

描述性统计与相关分析:462名参与者描述性统计揭示其感知关键洞察。社会影响均值3.68,表明中等感知重要性。享乐动机评分3.75,反映享受是重要因素。拟人化均值3.82,表明对类人特征欣赏。学生对生成质量期望相对较高(均值4.05),对伦理风险关注较低(均值3.45)。

相关分析为假设提供初步支持。使用意愿与社会影响(r=0.45)、享乐动机(r=0.41)和拟人化(r=0.45)呈强正相关。伦理风险感知对绩效期望(r=-0.38)和使用意愿(r=-0.40)产生负向影响。

信度与效度:对包含所有11个潜在构念的完整测量模型进行CFA,模型显示极佳数据拟合(χ2/df=2.48, CFI=0.921, TLI=0.910, RMSEA=0.052)。

量表心理测量特性强大。CR值0.80-0.87,Cronbach's α系数0.77-0.86,均超过0.70阈值,确认高内部一致性。所有标准化因子载荷显著且0.75-0.88。每个构念AVE 0.56-0.68,超过0.50基准。判别效度建立,每个构念AVE平方根大于与任何其他构念的相关性。

结构模型与假设检验:结构模型也显示极佳拟合(χ2/df=2.10, CFI=0.94, TLI=0.93, RMSEA=0.04),对绩效期望(R2=58%)、努力期望(R2=51%)和使用意愿(R2=62%)具有实质解释力。

预测绩效期望时,生成质量具有最强正向效应(β=0.53, p<0.001),其次是算法可解释性(β=0.41, p<0.001)和情境感知(β=0.39, p<0.01)。享乐动机(β=0.27, p<0.001)和拟人化(β=0.21, p=0.01)也有显著正向效应。相反,伦理风险感知具有显著负向效应(β=-0.25, p<0.01)。社会影响路径不显著(β=0.11, p=0.08)。

预测努力期望时,生成质量(β=-0.42, p<0.001)、算法可解释性(β=-0.39, p<0.001)、情境感知(β=-0.35, p<0.01)和拟人化(β=-0.33, p<0.01)均具有显著负向效应,表明它们降低感知难度。伦理风险感知显著增加感知难度(β=0.33, p<0.01)。享乐动机(β=-0.12, p=0.18)和社会影响(β=0.10, p=0.20)路径不显著。

绩效期望(β=0.45, p<0.001)和努力期望(β=0.38, p<0.001)均正向影响情感,情感进而对使用意愿产生强正向效应(β=0.50, p<0.001)。

多组分析:在测试组间结构模型前,严格评估构念测量不变性。结果提供测量不变性强有力支持:所有比较中,比较拟合指数变化(ΔCFI)远低于0.010建立阈值,近似误差均方根变化(ΔRMSEA)低于0.015。这强健确立测量模型在比较组间等效运作。

性别差异:调节效应发现特定路径显著。社会影响对绩效期望路径女性(β=0.46, p<0.001)显著强于男性(β=0.32, p<0.05),组间差异检验显著(z=-2.11, p<0.05)。相反,感知伦理风险对绩效期望负向影响男性(β=-0.40, p<0.001)显著强于女性(β=-0.32, p<0.01),差异也统计显著(z=-2.04, p<0.05)。

学科差异:学科背景显示显著调节。享乐动机对绩效期望效应人文社科学生(β=0.50, p<0.001)显著强于理工科学生(β=0.39, p<0.01),路径差异显著(z=2.25, p<0.05)。

民族背景差异:民族也作为显著调节因素出现。社会影响对绩效期望效应汉族学生(β=0.50, p<0.001)显著高于少数民族学生(β=0.38, p<0.05),组间差异统计显著(z=2.31, p<0.05)。感知伦理风险对绩效期望负向影响汉族学生(β=-0.38, p<0.01)显著但少数民族学生不显著(β=-0.22, p>0.05),组间差异统计显著(z=-2.58, p<0.01)。

政治身份差异:党员身份展示一致调节影响。享乐动机对绩效期望效应党员(β=0.52, p<0.001)显著强于非党员(β=0.31, p<0.001),差异确认显著(z=3.12, p<0.01)。生成质量对绩效期望影响党员(β=0.55, p<0.001)显著强于非党员(β=0.39, p<0.001),差异统计显著(z=2.67, p<0.01)。

讨论

关键发现解读:研究结果强有力支持提出整合模型,揭示AIGC接受过程中复杂认知评价机制。

AIGC特定维度的压倒性影响:技术与伦理双重评价。最显著发现是AIGC特定技术性能和社会伦理维度对学生核心信念展现比传统接受模型中经典前因强得多的预测力。生成质量和情境感知是增强绩效期望的最强驱动因素,证实核心假设。

这与先前通用软件或系统研究形成鲜明对比,后者绩效期望常更多受社会影响或组织授权等外部因素驱动。结果表明对于以内容输出为核心的智能技术如AIGC,用户评价焦点从"外部环境推动"转向"技术核心强度",确认并延伸感知有用性至上的经典断言,明确其在AIGC时代核心含义是高质量生成能力。

同时,感知伦理风险对绩效和努力期望均产生显著负向影响,而算法可解释性双重增强绩效期望并降低努力期望。此结果实质性丰富现有技术接受理论。传统模型很少纳入伦理考量,尽管近期有学者呼吁将信任或风险整合入这些模型,但它们常被当作单一整体变量处理。通过将伦理维度操作化为"感知风险"和"可解释性"并展示它们对核心信念独立强大预测力,研究强有力响应这些呼吁。这表明在AI时代,伦理考量不再是次要因素,而成为决定用户接受的核心前因,与技术性能同等重要——对传统接受模型的重大修订和补充。

这种转变如此深刻,以至于似乎掩盖了一些经典前因的影响。值得注意的是,结构模型显示社会影响到绩效期望和努力期望的直接路径均不显著。这一与UTAUT等模型核心原则显著偏离的发现并非暗示社会线索无关,而是表明当面对其性能和风险可直接即时体验的技术时,用户优先考虑对工具核心功能的第一手认知评价而非替代信息。在AIGC情境中,工具能做什么(生成质量)和可能带来什么风险(伦理风险)成为比他人评价更显著的信息线索。这为传统接受模型在强大、体验驱动AI时代适用性提供了清晰边界条件。

经典前因影响与认知中介:三个经典前因——社会影响、享乐动机和拟人化——路径保持清晰,完美证实CAT解释力。社会影响同时影响绩效期望和努力期望,这种双影响路径确认先前研究发现,但研究通过引入CAT提供更深层心理机制。传统研究仅描绘"社会影响→核心信念"链接,模型揭示这种关联以用户同时进行"利益评价"(初级评价)和"资源评价"(次级评价)认知处理为基础。

完整路径:核心信念、情感与最终接受意图:结果完全验证从核心信念到情感最终到接受意图的中介路径,情感起关键中介作用。研究发现重申情感在技术接受中的关键作用,与先前识别情感作为认知评价与最终行为间重要桥梁的研究高度一致。但研究在新颖高度互动AIGC情境中验证此发现,指出绩效期望(而非努力期望)是积极情感主要来源。这可能暗示对AIGC用户而言,情感体验更多来自"获得意外好结果"的惊喜和满足,而非仅仅"轻松操作"的流畅性。

有趣的是,与传统可用性原则似乎矛盾,结果显示努力期望正向影响情感。这一反直觉发现表明"努力"含义在AI创意或智力伙伴关系中可能被重新评价。掌握提示工程或与AIGC共同创造投入的认知努力不被视为纯粹需最小化"成本",而被视为奖励性参与形式。克服中等难度水平实现期望输出过程可培养能力和成就感,从而产生积极情感。这对高级AI工具而言,目标可能不是完全消除努力,而是设计最优挑战和智力刺激用户体验。

个体差异调节作用:情境化理解AIGC接受:多组分析结果揭示学生群体内部异质性,确认个体差异在AIGC认知评价过程中显著调节作用,同时产生一些意外发现。

分析确认性别差异,但揭示挑战常见假设的细微画面。感知伦理风险对绩效期望负向影响男性显著强于女性。这一反直觉结果可能表明男性学生可能采用更工具性观点,一旦感知工具伦理缺陷(如抄袭可能性、不准确输出)作为实现可靠结果直接威胁,就更快降级对其效用评估。相反,女性更受社会影响发现与既定文献一致,但研究将其置于AIGC情境中,突出社交网络在塑造女生初始技术评价中的持续作用。

超越这些一般人口因素,当检查中国语境独有变量时,个体差异影响变得更加显著。学科背景和政治身份作为调节因素的使用不仅确认先前认知风格差异理论,更重要为教育中推广AIGC提出新颖精细视角:一刀切推广策略无效,指导必须针对不同学科"认知范式"量身定制。

同样值得注意的发现是汉族和少数民族学生间以及不同年级学生间缺乏统计显著差异。这一"零结果"本身具有高度指导性。可能表明在中国当前高度整合和信息中心教育环境中,AIGC作为新普及学习工具的影响超越传统民族文化和简单年级区分。对共享相似数字生活环境和学术压力的当代大学生而言,面对AIGC等通用技术时,"数字原生代"这一共同身份可能比民族或年级归属具有更强影响。这意味着研究者和实践者考虑AIGC采纳时,应更关注学科塑造的"认知范式"而非过度依赖传统人口统计分类。

理论意义:研究为技术接受和人机交互领域贡献多个关键理论见解:提出整合AI接受模型:研究主要贡献是成功整合AIDUA模型内容变量与CAT处理机制,扩展至应对AIGC独特性。这种分层整合模型不仅解释"什么"影响接受意图,更关键解释"如何"影响,为理解复杂AI技术用户接受提供更具解释力理论框架。

将伦理维度实证化并整合入接受模型:过去TAM主要关注工具功利和易用性方面。研究首次将"感知伦理风险"和"算法可解释性"作为核心变量,并用实证数据展示它们对用户核心信念的强大预测力。这将技术接受理论范式从"人机"二元互动转向"人机社会"三元认知框架。

深化CAT应用:研究将CAT从一般心理理论转化为能解释技术接受特定路径的分析工具。通过将前因概念化为"待评价线索",核心信念作为"评价结果",为未来研究如何引入新情境变量提供强健理论路径。

实践意义:研究发现为AIGC设计师、教育政策制定者和一线教育者提供重要实践指导。

对AIGC开发者:技术与伦理必须双轮驱动。在迭代算法提高生成质量和情境感知同时,开发者必须战略同等重视增强算法可解释性和降低用户伦理风险感知。"一键溯源"、"引用建议"和"风险警示"等功能可能不再是锦上添花,而是赢得用户信任和提高产品竞争力必备元素。

对教育政策制定管理者:应建立明确AIGC使用规范指南。鉴于学生对伦理风险高度敏感性,学校和教育当局应及时发布学术活动中AIGC使用指南,明确边界以缓解学生因不确定性产生的学术诚信风险。

对一线教师:采用差异化引导教学策略。教师应认识不同学科背景学生认知差异。对STEM学生,重点可引导反思技术背后伦理和社会影响。对人文社科学生,重点更多展示如何利用AIGC作为工具提升学术生产力。提供专门研讨会或工作坊提高学生"AI素养"是弥合认知分化和促进AIGC教育健康发展的关键。

局限性与未来研究方向

研究提供强健细致AIGC采纳模型,但其结论必须由其固有局限性框定。这些局限性不仅是方法学脚注,更是生成性的,直接指向更雄心勃勃复杂未来研究议程。

研究发现根源局限性:文化与情境特异性:主要公认局限性是样本虽跨15所机构多样,但完全取自中国。这必然限制研究发现的跨文化普适性。关键文化维度如集体主义、权力距离和中国特定教育规范可能显著塑造学生对社交影响和伦理风险等因素感知。例如,社会影响到努力期望的非显著路径在更个人主义文化情境中可能产生不同结果。因此,虽然模型为认知评价过程提供强健理论基线,其特定路径系数需要谨慎解读,并邀请未来跨文化验证以测试其在西方和其他非中国教育系统适用性。

"认知评价"黑箱:基于CAT的模型成功将技术可供性连接到认知评价,但定量设计将评价过程本身视为"黑箱"。未捕捉学生进行实时动态常混乱思维过程,例如当他们权衡高质量输出的工具利益与它引发的伦理不安时。需要质性方法如出声思维协议或数字人种志来撬开这个黑箱并现场观察评价过程。

稳定"伦理风险"构念假设:将伦理风险感知操作化为单一静态构念。这忽视其潜在多维度性。学生感知的"风险"主要是关于学术诚信(抄袭)、数据隐私还是AI生成信息真实性(错误信息)?这些风险不同维度可能触发不同评价路径和应对响应。模型在这方面简洁性可能掩盖更深层更具体焦虑,需要它们自己的探究路线。

意图-行为差距与社会期望偏差:与既定模型一致,使用使用意愿作为实际行为代理。这是广为接受方法学选择,但携带由AIGC争议性质放大的显著局限性。打算负责任使用AIGC与实际实践间差距可能显著。这与潜在社会期望偏差复合,参与者可能报告伦理对齐意图因为他们感知这些是"正确"或社会认可答案。因此,依赖自我报告意图可能呈现学生行为过于乐观视图。真实世界挑战——如压力下抄近路、过度依赖不完美输出或

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号