使用深度学习变换器和特征工程(同时具备局部不可知性解释能力)来重新表述机器生成内容中的检测方法
《Engineering Applications of Artificial Intelligence》:Rephrasing detection in machine generated content using deep learning transformers and feature engineering with local agnostic interpretability
【字体:
大
中
小
】
时间:2026年02月13日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
人工智能生成内容(AIGC)的改写检测面临文本风格多样化和AI工具高级化带来的挑战,本研究通过整合多维度语言学特征(如词汇复杂度、语法结构、表达特异性)与DistilBERT模型,有效识别不同风格的改写文本,最高分类准确率达93%,并采用LIME技术实现模型可解释性分析。
Syeda Hira Amjad | Hikmat Ullah Khan | Ali Daud | Anam Naz | Aseel Smerat
巴基斯坦旁遮普省萨尔戈达大学信息技术系
摘要
- 人工智能内容生成(AIGC)利用人工智能工具彻底改变了全球各种类型内容的制作方式。识别改写的内容并将其与人类编写的内容区分开来是一个活跃的研究领域。然而,一些人工智能工具使用多种写作风格来改写AIGC内容,这使得检测变得更加困难。为应对这一新的研究挑战,本研究探索了一系列基于内容的语言特征,从原始的数量指标到词汇复杂性、语法复杂性和具体性-表现力的高级度量,以捕捉复杂的模式。所采用的方法论基于一种名为DistilBERT的Transformer模型,该模型结合了自注意力机制来编码文本中的长距离依赖关系。实证分析通过探索词性标注多样性、Flesch-Kincaid可读性评分、词熵计算和情感词计数等方式来展示特征探索。数据采用保留法进行划分,其中80%用于训练,20%用于测试,以确保不会出现同一来源的改写变体,从而防止平行样本泄露。通过使用准确率、精确度、召回率和F1分数在保留测试集上评估模型性能,在固定随机种子的多次运行中观察到一致的结果。从定量上看,DistilBERT模型实现了93%的最高整体分类准确率,优于传统的Transformer基线和所有序列模型。从定性上看,为了支持模型的可解释性,可解释的人工智能技术(包括局部可解释的模型无关解释)提供了突出影响每种风格预测的六个主要特征的解释。
引言
- 近年来,人工智能(AI)取得了显著进展,并改变了多个领域,特别是自然语言处理(NLP)领域。作为AI的一部分,NLP使机器能够以越来越准确和流利的方式理解和生成人类语言(Gongane等人,2022年)。这一变革得益于机器学习和深度学习的进步,这些技术在NLP等领域得到了广泛应用,例如文本生成。在这一演变过程中,一个重要的里程碑是OpenAI开发的大型语言模型(LLM),如ChatGPT和GPT-4(Lin等人,2024年)。这些是最先进的模型,它们基于大型Transformer架构,能够提供清晰、有上下文且人性化的响应,标志着AI语言理解新时代的开始(Song等人,2025年)。
- 这些模型被用于创作各种类型的创意内容、翻译语言,这些聊天机器人模型能够以信息丰富的方式回答你的问题。AI的影响超出了NLP领域,它还影响了艺术(Anantrasirichai和Bull,2022年)、医疗保健(Secinaro等人,2021年)、金融(Bahoo等人,2024年)和交通等领域。AI模型的自动化提高了效率并开启了新的可能性(Huang等人,2024年)。AI生成的内容(AIGC)指的是由LLM生成的内容,由于生成式AI算法的作用,这种生成的内容往往与人类生成的内容难以区分。虽然AIGC提高了效率和生产力,但也带来了重大挑战。LLM生成文本的滥用(Monteith等人,2024年)在学术领域(如抄袭(Eke,2023年)、社交媒体(如假新闻生成(Trandab??和Gifu,2023年)、网络钓鱼(Schmitt和Flechais,2024年)和垃圾邮件(Wibowo,2025年)等方面引发了问题。这引发了关于信息真实性、正确性和可信度的伦理担忧(Khlaif,2023年),因此区分人类生成的内容和AI生成的内容变得越来越重要。与人类生成的内容不同,AI生成的内容包含重复的词语,并且基于词的概率(Wu等人,2025a)。传统的AI文本检测方法基于这样的假设:通过检测LLM生成的文本中特有的某些统计或语言特征,可以识别出AI文本(Huang等人,2025年)。但随着AI文本生成技术的不断进步,这些特征变得不那么明显(Naz等人,2025年)。最新的AI文本生成模型可以改写和重新表述内容,这意味着多类文本会使用模型进行重写,重新表述后的文本意义相同,但语法会发生变化(Younis等人,2023年)。这些技术使得依赖表面层次文本特征的传统检测方法变得更加困难。因此,检测改写的内容已成为一个关键的研究领域。
- 本研究的核心问题是检测被改写成不同风格形式的文本的难度日益增加,使得传统的AI检测和作者身份验证方法变得越来越不可靠。我们假设,结合基于Transformer的深度学习的语言特征工程可以有效地通过捕捉在转换过程中持续存在的风格、语法和表现力模式来区分改写的内容,如表1所示。因此,本研究探讨了这种混合建模是否能够在识别改写生成的内容方面胜过现有方法。
- 本研究的范围限于与AI相关的arXiv摘要以及从同一原始文本生成的四个固定改写角色的集合。因此,目标集中在受控实验环境中检查多类风格区分。评估仅限于在同一领域和预定义的角色空间内评估语言特征组、模型架构和消融配置的一致性。
- 为了从所有研究问题中得出结果,本研究旨在检测改写文本的多类风格分类,目标是区分同一生成内容的不同风格转换。通过利用分为四组的基于内容的语言特征,并将其与包括循环神经网络(RNN)、长短期记忆(LSTM)、门控循环单元(GRU)在内的深度学习相结合。此外,还使用了最先进的基于Transformer的模型进行比较。研究的主要贡献如下:
- •
开发并应用了一个多维特征集,包括数量、词汇复杂性、语法复杂性和具体性及表现力,以捕捉改写摘要中的复杂语言风格差异。
- •
通过深度学习模型建立了强大的性能基线,表明仅使用序列机制就可以区分五种不同的改写风格。
- •
实现并比较了BERT及其精简变体(DistilBERT)在风格分类方面的性能,实现了93%的最高分类准确率,同时减少了模型大小和推理延迟。
- •
采用了可解释AI技术Local Interpretable Model Agnostic Explanation(LIME)来探索模型决策,提供了透明、人类可解释的解释,说明哪些特征驱动了每种风格预测。
本文的其余部分结构如下,如图1所示:第2节对相关工作进行了全面回顾,探讨了机器学习、深度学习和Transformer的方法论。第3节概述了详细的方法论,包括框架和数据集选择。第4节描述了实验结果分析,随后是讨论及其含义。最后,第5节提供了关键发现、结论和未来工作的建议。
相关工作
自然语言处理的最新进展促使从传统的机器学习方法迅速发展到基于Transformer的架构,用于分析机器生成文本。然而,现有的研究通常关注不同的但相关的任务,包括作者身份检测、改写或风格转换检测以及角色或风格分类,这些任务在目标、假设和评估协议上存在根本差异。
材料与方法
本节讨论了使用深度学习技术识别改写生成文本的方法。方法论的步骤包括数据预处理、特征选择、模型训练和测试以及使用评估指标进行性能评估,如图2所示。预处理包括多个步骤,如去除停用词和噪声、分词、词形还原和文本规范化。
结果与讨论
在本节中,通过对改写内容进行特征选择、评估和预测分析来测试所应用的方法论。为了区分改写文本和人类编写的文本,应用了预处理步骤,如去除停用词、数字、标点符号、特殊字符、分词、词形还原和文本规范化,以系统化有意义的特征。
结论与未来工作
在线AI写作工具增加了内容的数量,同时也增加了内容的真实性和来源归属的复杂性。本研究通过将风格建模为一组基于内容的语言信号(如数量、词汇复杂性、语法复杂性和具体性及表现力)来处理改写检测问题。我们报告了描述性统计、皮尔逊相关系数和Flesch-Kincaid可读性,以分析风格并选择特征。
CRediT作者贡献声明
Syeda Hira Amjad:撰写——原始草稿、方法论、数据整理。
Hikmat Ullah Khan:撰写——审阅与编辑、监督、形式分析、概念化。
Ali Daud:撰写——审阅与编辑、软件、资源、项目管理。
Anam Naz:撰写——原始草稿、项目管理、调查。
Aseel Smerat:撰写——审阅与编辑、可视化、验证、概念化。
数据集可用性
数据集可在以下链接免费获取:
https://www.kaggle.com/datasets/prathapkashyap/arxiv-abstracts-rephrased
伦理声明
作者声明没有利益冲突
资金声明
不适用
利益冲突声明
作者声明没有利益冲突。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号