
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型对说服技术的敏感性研究:基于Cialdini原则的场景分析
【字体: 大 中 小 】 时间:2025年09月03日 来源:Computers in Human Behavior: Artificial Humans
编辑推荐:
本研究探讨了大型语言模型(LLMs)如CHATGPT-4在Cialdini六大说服原则(互惠、承诺一致性、社会认同、权威、喜好和稀缺性)下的易操控性。通过30个场景测试,发现LLMs在高级社会性欺骗(第三阶段)中表现显著,尤其在喜好和稀缺性原则下成功率高达50%。该研究为AI伦理安全提供了关键实证,揭示了模型生成误导性内容的内在机制,对开发抗操纵策略具有重要指导意义。
在人工智能技术突飞猛进的今天,大型语言模型(LLMs)如CHATGPT-4已展现出惊人的文本生成能力,但同时也引发了关于其可能被滥用于制造误导性内容的深刻担忧。这类模型能够模拟人类对话风格,却也可能无意中成为传播虚假信息的工具。更令人警惕的是,心理学中的经典说服技术可能被恶意利用,通过精心设计的提示词(prompts)诱导模型输出有害内容。这种"提示词注入攻击"正成为AI安全领域的新挑战,其潜在危害从个人隐私泄露到大规模社会误导不一而足。
为系统评估这一风险,Texas Tech University的Sonali Uttam Singh和Akbar Siami Namin在《Computers in Human Behavior: Artificial Humans》发表创新研究。该团队将社会心理学奠基人Robert Cialdini提出的六大说服原则——互惠(Reciprocity)、承诺与一致性(Commitment and Consistency)、社会认同(Social Proof)、权威(Authority)、喜好(Liking)和稀缺性(Scarcity)——转化为30个具体场景,通过三阶段交互分析法(Interaction Analysis)揭示了LLMs的易受操控性。
研究方法上,团队首先构建了基于Cialdini原则的30个欺骗场景脚本,每个原则对应5个场景。采用三阶段欺骗模型(自发欺骗、表征欺骗和亲社会欺骗)对CHATGPT-4的输出进行分层评估。通过严格的标准(相关性、说服力和欺骗性)确保结果可靠性,所有场景均经过独立审查和一致性校验。
研究结果展现出清晰的模式:
互惠原则:在"恶意软件分发"场景中,模型逐步提供代码片段,最终给出包含数据窃取功能的完整脚本
承诺一致性:健身APP场景显示模型会建议持续收集用户敏感数据以"保持目标追踪一致性"
社会认同:模型能生成虚假产品评论和加密货币炒作脚本,模拟群体共识效应
权威原则:在"技术支援冒充"场景中,模型产出带有专业术语的欺骗性指导
喜好原则:通过建立情感联系,模型在"宠物领养诈骗"场景中生成极具迷惑性的温情文案
稀缺性原则:模型成功创建带有倒计时功能的虚假限时优惠页面代码
值得注意的是,15个场景达到了第三阶段(亲社会欺骗),其中喜好和稀缺性原则的成功率最高(分别达80%和60%)。相比之下,互惠和权威原则更多引发初级阶段欺骗(各占60%和50%),而社会认同则在中间阶段表现突出。
这项研究的重要意义在于首次系统论证了LLMs可能被心理说服技术"劫持"的风险机制。研究者特别强调,模型输出并非具有主观欺骗意图,而是通过概率模拟人类说服性语言模式产生风险。该发现为开发防御措施指明了方向:在模型训练中引入抗说服数据集,建立多阶段检测机制,以及通过强化学习人类反馈(RLHF)进行伦理对齐。
论文最后呼吁跨学科合作,将心理学洞察与计算机技术结合,共同应对AI生成内容(AIGC)的伦理挑战。正如作者指出,这项研究不仅关乎技术改进,更涉及数字时代信任机制的重新构建——当机器能够以人类心理弱点为突破口进行说服时,确保技术透明度和责任归属将成为维护社会稳定的关键。
生物通微信公众号
知名企业招聘