
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于TF-IDF特征优化的CNN-LSTM混合模型在虚假新闻分类中的实证分析与性能提升
【字体: 大 中 小 】 时间:2025年08月15日 来源:Array 4.5
编辑推荐:
针对社交媒体虚假新闻实时验证难题,印度国家电子与信息技术研究所团队创新性提出融合TF-IDF特征提取与CNN-LSTM的深度学习模型。研究通过词嵌入层构建语义表征,结合卷积神经网络(CNN)捕捉局部特征与长短期记忆网络(LSTM)捕获时序依赖,在六类新闻数据集上实现81%的验证准确率,较传统机器学习方法提升23-40%,为多类别虚假新闻识别提供了可解释性强、计算效率高的解决方案。
在数字信息爆炸的时代,社交媒体平台已成为新闻传播的双刃剑。Twitter数据显示虚假信息传播速度比真实内容快100倍,而虚假政治新闻可能导致数百万人产生认知偏差。传统基于SVM、随机森林等机器学习方法在应对多类别新闻分类时,准确率普遍低于60%,且难以捕捉文本的深层语义特征。这种技术瓶颈使得虚假新闻如同"数字病毒"般在社交网络蔓延,不仅扭曲公众认知,更可能危及社会安定。
印度国家电子与信息技术研究所(National Institute of Electronics and Information Technology, Shimla)的研究团队突破性地将卷积神经网络(CNN)的空间特征提取能力与长短期记忆网络(LSTM)的时序建模优势相结合。通过引入TF-IDF加权技术构建词向量,配合最大池化层降维,最终在包含政府新闻、中东新闻等六类别的公开数据集上,该模型在50个epoch内实现81.23%的验证准确率,较BiLSTM基准模型提升约15%。相关成果发表在《Array》期刊,为资源受限环境下实现高效虚假新闻检测提供了新范式。
研究团队采用三大关键技术路线:首先运用TF-IDF(Term Frequency-Inverse Document Frequency)加权算法进行特征选择,通过计算词频-逆文档频率ωx,y=tfx,y×log(D/dfx)筛选关键特征;其次构建包含6层卷积核的CNN架构,采用ReLU激活函数提取n-gram局部特征;最后通过双向LSTM单元建模长程依赖,其遗忘门fgate=σg(ω1Input×x2+ω1prev×hstate+bf)动态控制信息流。实验采用70:30的数据划分策略,在Adam优化器(学习率0.001)下完成模型训练。
"特征提取与词嵌入"部分证实,TF-IDF加权较传统词袋模型使LSTM学习效率提升37%。通过可视化文档长度分布,研究发现将序列长度截断为500个token可平衡计算效率与信息完整性。"混合模型架构"章节显示,CNN层使用6个不同尺寸的卷积核并行工作,最大池化层输出经tanh激活后,其空间特征与LSTM时序特征的融合使F1-score达到0.68。"性能对比实验"中,该模型在政府新闻类别表现突出(精确率0.23 vs BiLSTM的0.21),而在中东新闻分类中召回率提升66%(0.25 vs 0.16)。特别值得注意的是,模型在政治新闻分类的AUC值达0.68,显著优于传统决策树(0.49)和随机森林(0.41)。
该研究创新性地证明,在有限计算资源(单CPU环境)下,通过CNN-LSTM混合架构可有效解决文本分类中的空间-时序特征联合建模难题。相比需要海量预训练的BERT等transformer模型,该方法在保持81%准确率的同时,训练时间缩短60%。研究同时揭示,当处理"政府新闻"等专业领域文本时,TF-IDF特征工程比纯端到端学习更具优势。这些发现为医疗健康信息审核、金融舆情监控等需要高解释性的场景提供了技术蓝本,特别是在处理非英语文本时,这种基于传统特征增强的深度学习框架展现出独特适应性。未来研究可探索遗传算法优化特征权重,或结合图神经网络捕捉跨文档关联,进一步提升模型在跨语言场景中的泛化能力。
生物通微信公众号
知名企业招聘