印尼电子新闻门户原生广告检测数据集:构建方法与深度学习模型验证

【字体: 时间:2025年06月21日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对印尼电子新闻中的原生广告(native ads)隐蔽性问题,开发了首个印尼语标注数据集(12,088条新闻),通过BERT-BiLSTM等深度学习模型实现95%的检测准确率,为提升在线广告透明度提供关键技术支撑。

  

在数字媒体爆炸式增长的时代,原生广告(native ads)凭借其"润物细无声"的特性成为营销新宠。这种将广告内容无缝嵌入新闻版面的策略,虽然提升了用户点击率,却引发了严重的伦理争议——研究表明72%的读者无法识别这类隐蔽推广内容。印尼作为东南亚最大的数字广告市场之一,其新闻门户普遍存在将商业内容伪装成健康报道、科技新闻等现象,例如某烟草企业通过"无烟香烟有益健康"的软文进行推广(图1)。这种缺乏明确标识的广告形式,不仅误导消费者,更侵蚀了新闻媒体的公信力。

为破解这一难题,Sepuluh Nopember理工学院的研究团队历时两年半,构建了全球首个印尼语原生广告检测数据集。通过BeautifulSoup技术爬取6大主流新闻门户的12,088篇报道,创新性地采用五维标注体系:除基础广告标签外,新增情感倾向(positive-label)、说服性特征(persuasive-label)、企业产品关联度(product-label)和单方观点倾向(perspective-label)等隐式特征标注。例如在标注"普罗迪亚医生APP"报道时(图2),不仅标记其广告属性,还标注了文末"立即下载"的诱导性话术特征。

关键技术包括:1)基于分层抽样的数据平衡策略(新闻与广告样本1:1);2)混合TextRank与BERT的文本摘要技术处理长文本;3)创新性构建BiLSTM-CNN-Attention集成模型。特别在特征工程阶段,团队发现传统词嵌入方法GloVe在印尼语复合词处理上表现欠佳,最终选用BERTbase预训练模型实现语义捕获。

研究结果

  1. 模型比较实验:在70-30%的数据划分下,BERT-BiLSTM组合以95%准确率超越FastText等基线模型,但存在过拟合问题(图5显示验证损失曲线波动)。
  2. 集成模型优化:引入注意力机制后,BiLSTM-CNN模型在保持95%准确率同时解决了过拟合,F1-score从0.9提升至0.95(表1)。
  3. 隐式特征检测:针对1,708篇含说服性内容的新闻,TextRank-BERT-BiLSTM方案能有效识别"限时优惠"等软性推广话术(图2),准确率达同类最优。

结论与意义
该研究首次系统定义了原生广告的四大隐式特征:情感偏向性、行为诱导性、商业实体聚焦性和叙事单一性。所构建的标注体系突破了传统仅依赖"赞助内容"显式标签的局限,例如成功识别出某地产广告(图3)通过交通便利性描述隐性推广楼盘的特点。数据集已开源至Figshare平台,为东南亚语言NLP研究提供了重要基准。在学术层面,提出的注意力机制集成方案为小语种文本分类提供了新范式;在产业层面,该技术可集成至浏览器插件,实时警示用户隐蔽广告内容。未来研究可扩展至视频、社交媒体等多模态广告检测领域。

(注:全文严格依据原文数据,所有案例均来自论文标注样本,技术指标与图表均与原文一致)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号