
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于EPRVFL模型的实时假新闻检测:一种高效轻量化的BERT嵌入集成方法
【字体: 大 中 小 】 时间:2025年07月01日 来源:Pattern Recognition Letters 3.9
编辑推荐:
针对社交媒体假新闻实时检测的算力瓶颈问题,Rajiv Kumar Gurjwar团队提出嵌入特权随机向量功能链接网络(EPRVFL)。该模型通过集成BERT-base嵌入与浅层神经网络,在PolitiFact(91.77%/0.0011s)、LIAR2(74.65%/0.0208s)等数据集上实现精度与速度的平衡突破,为动态环境下的虚假信息治理提供高效解决方案。
在社交媒体主导信息传播的时代,虚假新闻如同数字病毒般肆虐——从扭曲政治选举的认知战到激化巴以冲突的谣言,其破坏力已远超想象。传统检测方法如卷积神经网络(CNN)和双向门控循环单元(BiGRU)虽有一定效果,但1.3395秒的推理延迟和72.08%的准确率难以应对实时场景;而双向长短期记忆网络(BiLSTM)98.35%的高精度代价是0.7674秒的响应时间,犹如用精密手术刀处理街头急救。更棘手的是,现有模型普遍存在三重矛盾:计算复杂度与实时性不可兼得、数据分布失衡导致性能波动、上下文理解与轻量化难以共存。
针对这些挑战,研究人员开发了嵌入特权随机向量功能链接网络(Embedding Privileged Random Vector Functional Link, EPRVFL)。这项发表于《Pattern Recognition Letters》的研究通过革命性的架构设计,将双向编码器表示转换器(Bidirectional Encoder Representations from Transformers, BERT)的语义理解优势与随机向量功能链接(Random Vector Functional Link, RVFL)网络的高效特性相结合。模型采用直接连接输入输出层的浅层结构,在PolitiFact、LIAR2和BuzzFeed-Webis三个异构数据集上同步优化推理速度与分类性能,最终实现0.0011秒级响应与91.77%准确率的双重突破。
关键技术方法包括:1) 对LIAR2数据集22,961条记录进行二值化处理,将16,948条假新闻与6,014条真新闻重构为二元分类任务;2) 采用BERT-base模型生成文本嵌入,通过实验确定最优嵌入维度;3) 构建含特权层的RVFL网络,其输入层与输出层的直接连接显著降低计算复杂度;4) 在不使用过采样技术条件下处理类别不平衡问题。
Experimental dataset
研究选取具有代表性的多源数据:LIAR2包含政治新闻22,961条,BuzzFeed-Webis提供平衡的社交媒体样本,PolitiFact则涵盖广泛主题。通过二值化标签转换和随机抽样策略构建评估基准,确保模型在分布差异显著场景下的泛化能力测试。
Proposed EPRVFL model
该模型创新性地将BERT嵌入作为特权信息注入RVFL网络。实验显示,其浅层架构在保持<0.02秒推理速度的同时,F1值稳定超越CNN(72.08%)和BiGRU(73.95%)。特别值得注意的是,模型对BuzzFeed-Webis数据集的类别失衡表现出天然鲁棒性,无需重采样即达70.37%准确率,较前馈神经网络(FFNN)提升10.91个百分点。
Conclusion
EPRVFL的突破性体现在三方面:首先,0.0011秒级响应速度较现有模型提升2-3个数量级,真正满足推特等平台每秒万级帖文的处理需求;其次,通过嵌入特权层实现语义理解与计算效率的协同优化,在LIAR2复杂政治语境下仍保持74.65%准确率;最重要的是,模型仅需常规硬件支持,使得基层机构也能部署高精度检测系统。
这项研究为实时信息治理提供了范式转变——不再依赖"重型"深度学习模型,而是通过智能架构设计实现"轻装上阵"。未来若结合多模态数据分析,有望构建更全面的虚假信息防御体系。正如研究者Rajiv Kumar Gurjwar所述:"EPRVFL的价值不仅在于技术指标,更在于它重新定义了效率与精度的平衡点,为动态对抗环境下的AI治理开辟新路径。"
生物通微信公众号
知名企业招聘