基于心理语言学NLP框架的法庭文本分析:欺骗与情绪检测及其在犯罪调查中的应用

《Frontiers in Artificial Intelligence》:A psycholinguistic NLP framework for forensic text analysis of deception and emotion

【字体: 时间:2025年10月22日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  本文提出了一种结合心理语言学与自然语言处理(NLP)技术的法庭文本分析框架,用于从大型语言模型(LLM)生成的虚构犯罪访谈数据中识别关键嫌疑人。该框架整合了多种NLP技术(如Empath库、spaCy、Hugging Face Transformer及机器学习集成模型),通过分析欺骗、情绪(愤怒、恐惧、中立性)、主观性随时间变化以及叙事矛盾等特征,实现了对嫌疑人的多维度筛查。研究虽在LLM生成数据上面临缺乏人类认知细微特征的挑战,但通过关键词关联分析(如嫌疑映射)成功识别了真凶,为数字取证提供了新的心理语言学分析工具。

  
心理语言学与自然语言处理(NLP)的交叉融合为法庭文本分析提供了新的视角。本研究旨在开发一个综合性的NLP框架,通过对文本中欺骗和情绪的动态分析,从大量嫌疑人中识别出与犯罪调查高度相关的关键个体。该框架的核心在于利用计算语言学方法捕捉人类语言中潜藏的心理状态线索。
引言
自古希腊毕达哥拉斯提出宇宙运行于模式之中以来,探寻模式便成为科学研究的基石。心理语言学作为连接语言学与心理学的桥梁,致力于揭示心智(psyche)与语言(lingua)之间的内在联系。在法庭科学领域,利用心理语言学分析电子邮件、即时消息或访谈转录文本,可辅助识别犯罪嫌疑人。本研究并非判定罪行,而是通过计算语言特征,从更大群体中筛选出值得重点关注的对象子集。关键变量包括随时间变化的欺骗度、愤怒/恐惧/中立情绪水平、与调查关键词的相关性以及叙事矛盾性。本研究是对此前利用大语言模型(LLM)生成的小规模数据集(10个角色)进行嫌疑人识别研究的扩展,当前研究采用了由LLM生成的18份独立警方访谈记录,规模更大,场景更复杂。
文献综述
现有研究主要集中在三个方向:调查方法、叙事中的语言欺骗识别以及情绪作为欺骗指标。调查方法研究致力于从文本中提取可扩展的、指示欺骗的认知和行为特征。例如,有研究通过内容分析和文体特征识别假新闻,发现夸张和模糊语的使用偏离事实语言。语言欺骗识别研究则关注语言内容、主观性和风格对欺骗的影响,结合N-gram和心理语言学特征(如使用LIWC工具)的机器学习模型(如逻辑回归、支持向量机等)能有效检测欺骗性语言。情绪作为欺骗指标的研究表明,情绪特征(如夸张、不一致的情感)与认知特征结合时,能显著提高欺诈检测模型的效能。然而,现有研究缺乏结合情绪、欺骗和法庭调查动态的多层次模型,也缺少对情绪-欺骗相互作用的综合性时序分析框架。
材料与方法
研究采用LLM(Google Gemini Flash 2.0)生成虚构谋杀案调查场景,包含19个相互关联的角色,其中两人被随机指定为凶手,一人为受害者。为每位嫌疑人生成了包含姓名、年龄、职业、个性、内心独白、动机和不在场证明等信息的伪传记背景数据。数据集由18份独立的警方访谈记录(CSV格式)构成,每条记录包含时间戳、发言者(侦探或嫌疑人)和文本内容。
分析框架包含多个层次:
  1. 1.
    综合欺骗评分:采用三种特征提取管道(Empath词典、spaCy与TextBlob库、Hugging Face的RoBERTa-large-MNLI Transformer)结合机器学习集成(随机森林、支持向量机、XGBoost、K近邻、线性回归)预测每位嫌疑人的总体欺骗分数,并生成排序列表。
  2. 2.
    叙事矛盾分析:利用Hugging Face的RoBERTa-large-MNLI Transformer进行自然语言推理(NLI),通过比较不同嫌疑人陈述中关于相同实体和时间的句子(前提与假设),检测是否存在矛盾。
  3. 3.
    关键词与实体关联(嫌疑度):提取访谈中与“怀疑”相关的短语(如“我认为”、“可能是”),并统计这些短语所指向的嫌疑人姓名,生成嫌疑度分布图。
  4. 4.
    欺骗时间序列与二元语法分析:使用Empath库提取欺骗相关特征,结合机器学习集成,预测嫌疑人在访谈每个时间点的欺骗分数,并绘制欺骗水平随时间变化的曲线图。同时,提取每个时间点有意义的二元语法,并与高欺骗分数的时间点进行关联分析。
  5. 5.
    情绪与主观性复合时间序列图:利用预训练Transformer分析每位嫌疑人在访谈过程中愤怒、恐惧、中立性和主观性水平随时间的变化,并将这四个变量的轨迹以堆叠的折线图形式呈现,形成“情绪主观性”图谱,用于与欺骗时间线进行交叉验证。
结果
  1. 1.
    挑战:LLM生成的数据缺乏真实人类认知特征,如记忆错误导致的叙事矛盾。初始分析发现,18名嫌疑人的总体欺骗分数差异很小,无法有效区分真凶。叙事矛盾分析也未能发现明显的不一致之处。
  2. 2.
    综合欺骗列表:三种欺骗评分方法得到的列表排序不一致,且两名真凶(Owen Bishop和Gabriela Rios)并未在所有列表中均位列前五,仅稳定出现在前十名内,表明单纯依靠总体欺骗分数效果有限。
  3. 3.
    叙事矛盾:NLI分析未能在嫌疑人陈述中发现直接或明显的矛盾,突显了LLM生成数据在模拟人类认知局限性方面的不足。
  4. 4.
    关键词关联(嫌疑度):通过分析其他嫌疑人提及的“嫌疑”对象,发现Owen Bishop和Gabriela Rios是被其他角色指认最多的两人,这与LLM设定的真凶身份一致,成为本案中最有效的识别指标。
  5. 5.
    欺骗时间序列与二元语法:对两名真凶的个体分析显示,Owen Bishop在谈论“与Leah的分歧”时欺骗分数出现峰值。Gabriela Rios在谈论“潜在后果”和“Whitaker警官”时欺骗水平达到顶峰。
  6. 6.
    情绪主观性复合图:将Gabriela Rios的情绪主观性图与其欺骗时间线交叉参考发现,在她谈论“潜在后果”(时间戳13:36)时,主观性水平也达到峰值,同时伴有愤怒情绪升高,这为欺骗行为提供了额外的心理语言学佐证。
讨论
LLM生成的场景为模拟调查互动提供了无伦理约束的环境,但其生成的数据缺乏真实人类心理反馈的细微差别,导致基于总体欺骗分数和叙事矛盾的分析方法效果不彰。然而,通过嫌疑关键词映射成功识别真凶,表明在缺乏明显矛盾的情况下,社会网络中的“嫌疑”指向可能成为重要线索。个体时间序列分析,特别是将欺骗峰值与特定话题(二元语法)以及情绪、主观性变化相结合,能够提供更丰富的语境信息,揭示单靠听觉判断难以察觉的行为模式。将欺骗、情绪、主观性等变量在时间维度上综合考量,能为调查人员提供更深入的洞察。
结论与未来工作
本研究提出的NLP框架整合了心理语言学特征,为从大规模嫌疑人池中筛选关键对象提供了系统方法。该框架通过分析N-gram关联、情绪、主观性、叙事矛盾和欺骗水平的时间动态,有助于构建更清晰的调查叙事。虽然LLM数据在模拟人类非理性思维方面存在局限,但本研究验证了多变量时序分析在法庭文本挖掘中的潜力。未来工作将考虑使用真实人类被试数据,结合脑电图(EEG)等生理信号,并探索人工智能增强区块链等技术在法庭科学框架中的应用,以提升分析的可靠性和可重复性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号