基于混合Hopfield卷积神经网络的Twitter平台垃圾机器人高效检测方法研究

【字体: 时间:2025年05月27日 来源:International Journal of Cognitive Computing in Engineering CS13.8

编辑推荐:

  针对Twitter平台日益严重的垃圾机器人传播虚假信息问题,研究人员创新性地提出了一种结合用户特征和推文特征的混合深度学习模型HHD2SCNN。通过BGSO算法优化特征选择,并引入X形传递函数增强搜索能力,最终实现98.4%的检测准确率,为社交媒体安全治理提供了高效解决方案。

  

社交媒体平台已成为现代信息传播的重要渠道,其中Twitter凭借其短消息(tweet)的即时性和广泛传播性,成为公众获取新闻和热点话题的主要平台之一。然而,这种开放性也带来了自动化账户(bots)的泛滥问题。这些机器人账户被用于传播虚假新闻、推销产品甚至操纵舆论,严重影响了平台的信息质量和用户体验。尽管Twitter允许合理使用自动化功能,但恶意bot的存在已经对网络生态构成了重大威胁。

传统检测方法主要依赖机器学习算法,如支持向量机(SVM)和随机森林,但这些方法在特征理解和处理高维数据时存在明显局限。更先进的深度学习模型如长短期记忆网络(LSTM)和双向LSTM(BiLSTM)虽然提高了准确率,但仍面临计算复杂度高、训练不稳定等问题。此外,现有研究多集中于单一特征分析,缺乏对用户属性和推文内容的协同考量,导致检测效果难以进一步提升。

针对这些挑战,研究人员开展了一项创新性研究,提出了一种名为混合Hopfield扩张深度可分离卷积神经网络(HHD2SCNN)的新型架构。该模型巧妙融合了扩张深度可分离卷积(DDSCNN)和Hopfield神经网络(HNN)的优势,前者通过扩张卷积扩大感受野捕捉上下文特征,后者则利用联想记忆特性增强模式识别能力。为优化特征选择过程,团队开发了二进制黄金搜索优化(BGSO)算法,并创新性地引入X形传递函数来提升搜索效率。

研究采用Cresci 2017数据集,通过Python工具进行仿真验证。预处理阶段包含停用词去除、词干提取等自然语言处理(NLP)技术,特征提取则同时考虑用户档案(如用户名、地理位置)和推文特征(如话题标签、转发量)。实验结果显示,HHD2SCNN模型在准确率、精确度、召回率和F值等指标上均达到98.4%,Kappa系数为96.8%,显著优于现有方法。

关键技术方法包括:1)基于NLP的文本预处理流程;2)结合用户档案和推文内容的双维度特征提取;3)采用改进的BGSO算法进行特征选择;4)构建HHD2SCNN混合深度学习模型进行分类。

研究结果部分:
3.1 预处理阶段
通过词干提取示例(如将"sleeping"统一为"sleep")和词汇密度分析,有效降低了数据噪声。Type Token Ratio(TTR)和Lexical Density(LD)等指标的应用,帮助区分了垃圾账户词汇量有限的特征。

3.2 特征提取
从用户维度提取了屏幕名称、时区等15项特征,从推文维度量化了URL占比(公式4)、提及率(公式5)等12项指标。研究发现垃圾账户的平均转发量(公式6)和推文间隔时间(公式10)与正常用户存在显著差异。

3.3 特征选择
BGSO算法通过正弦余弦函数平衡探索与开发(公式15),X形传递函数(公式24-25)使特征维度减少40%,有效缓解了过拟合问题。

3.4 分类模型
HHD2SCNN中,DDSCNN通过深度可分离卷积降低参数量,HNN层则增强了序列特征的记忆能力。消融实验表明,该混合模型的误检率比单一模型降低2.3倍。

这项研究的创新性体现在三个方面:首先,首次将Hopfield网络的动态记忆特性引入社交机器人检测领域;其次,提出的BGSO算法在特征选择效率上比传统方法提升35%;最后,构建的端到端框架为实时检测提供了可能。论文发表在《International Journal of Cognitive Computing in Engineering》,为解决社交媒体信息安全问题提供了新思路。未来工作可探索模型在多语言场景下的适应性,以及针对新型进化式机器人的检测机制。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号