
-
生物通官微
陪你抓住生命科技
跳动的脉搏
印尼电子新闻门户原生广告检测数据集:构建方法与深度学习模型验证
【字体: 大 中 小 】 时间:2025年06月21日 来源:Scientific Data 5.8
编辑推荐:
本研究针对印尼电子新闻中的原生广告(native ads)隐蔽性问题,开发了首个印尼语标注数据集(12,088条新闻),通过BERT-BiLSTM等深度学习模型实现95%的检测准确率,为提升在线广告透明度提供关键技术支撑。
在数字媒体爆炸式增长的时代,原生广告(native ads)凭借其"润物细无声"的特性成为营销新宠。这种将广告内容无缝嵌入新闻版面的策略,虽然提升了用户点击率,却引发了严重的伦理争议——研究表明72%的读者无法识别这类隐蔽推广内容。印尼作为东南亚最大的数字广告市场之一,其新闻门户普遍存在将商业内容伪装成健康报道、科技新闻等现象,例如某烟草企业通过"无烟香烟有益健康"的软文进行推广(图1)。这种缺乏明确标识的广告形式,不仅误导消费者,更侵蚀了新闻媒体的公信力。

为破解这一难题,Sepuluh Nopember理工学院的研究团队历时两年半,构建了全球首个印尼语原生广告检测数据集。通过BeautifulSoup技术爬取6大主流新闻门户的12,088篇报道,创新性地采用五维标注体系:除基础广告标签外,新增情感倾向(positive-label)、说服性特征(persuasive-label)、企业产品关联度(product-label)和单方观点倾向(perspective-label)等隐式特征标注。例如在标注"普罗迪亚医生APP"报道时(图2),不仅标记其广告属性,还标注了文末"立即下载"的诱导性话术特征。

关键技术包括:1)基于分层抽样的数据平衡策略(新闻与广告样本1:1);2)混合TextRank与BERT的文本摘要技术处理长文本;3)创新性构建BiLSTM-CNN-Attention集成模型。特别在特征工程阶段,团队发现传统词嵌入方法GloVe在印尼语复合词处理上表现欠佳,最终选用BERTbase预训练模型实现语义捕获。
研究结果
结论与意义
该研究首次系统定义了原生广告的四大隐式特征:情感偏向性、行为诱导性、商业实体聚焦性和叙事单一性。所构建的标注体系突破了传统仅依赖"赞助内容"显式标签的局限,例如成功识别出某地产广告(图3)通过交通便利性描述隐性推广楼盘的特点。数据集已开源至Figshare平台,为东南亚语言NLP研究提供了重要基准。在学术层面,提出的注意力机制集成方案为小语种文本分类提供了新范式;在产业层面,该技术可集成至浏览器插件,实时警示用户隐蔽广告内容。未来研究可扩展至视频、社交媒体等多模态广告检测领域。
(注:全文严格依据原文数据,所有案例均来自论文标注样本,技术指标与图表均与原文一致)
生物通微信公众号
知名企业招聘