SCANNER Alcohol:一种基于深度学习的数字酒精营销自动检测系统及其在公共卫生监测中的应用

《Drug and Alcohol Review》:Automated Detection of Digital Alcohol Marketing Using SCANNER: An Integrated Deep-Learning Approach

【字体: 时间:2025年12月27日 来源:Drug and Alcohol Review 2.6

编辑推荐:

  本文介绍了一种名为SCANNER Alcohol的人工智能系统,它首次将目标检测(YOLOv8)和光学字符识别(PaddleOCR)技术相结合,用于自动检测图像和视频数据中的酒精品牌营销内容。该系统针对134个澳大利亚主流酒精品牌进行训练,在算法验证中表现出色(平均精度mAP为0.94,F1分数为0.95),在真实世界社交媒体视频测试中正确识别率高达98.9%,误报率仅为6.7%。这一工具为监管数字酒精营销、保护青少年等重点人群提供了可扩展且符合伦理的解决方案。

  
引言
酒精消费是全球可预防性死亡和发病的主要原因之一,每年导致约260万人死亡。在10-24岁的年轻人中,酒精是导致相关死亡和疾病的第二大风险因素。值得注意的是,酒精危害不仅影响饮酒者,约半数酒精相关危害波及他人和社会整体,表现为交通事故、人际暴力和更广泛的经济成本。
在导致有害饮酒的众多因素中,营销通过塑造态度和消费模式发挥着重要作用。数字平台彻底改变了酒精营销方式,允许全球公司使用数据驱动算法传递定向和个性化信息。这些算法技术积极捕捉用户注意力并激活边缘系统(负责愉悦和情感的大脑区域)。年轻人上网时间日益增加,使他们暴露于持续的数字营销流中,这些内容通常嵌入社交媒体、网红内容和游戏环境中。近期调查数据显示,接触范围广泛:70%的14-20岁年轻人报告在社交媒体上看到过酒精广告,其中40%曾与此类内容互动(如点赞、分享或关注)。然而,自我报告的数字媒体使用和在线酒精内容暴露已知不可靠,年轻人回忆内容与实际在线行为存在显著差异。
重度饮酒者(此处指饮酒水平与升高风险相关的个体,包括诸如重度间歇性饮酒等模式)可能对酒精营销特别易感。酒精营销可能影响重度饮酒者或处于康复期的人群,塑造积极情绪和认知,对某些人甚至会引发渴求或复饮。这一人群对酒精生产者具有经济意义,一项澳大利亚研究发现,饮酒量最高的10%人群消耗了全部酒精的54.4%。因此,酒精营销商已被证明积极针对重度饮酒者、曾戒酒者或可能成为重度饮酒者的人群开展营销策略。
女性构成酒精营销的另一关键人群,数字活动通常策略性地融入赋权、社交性和减压主题,使酒精消费与现代女性观念保持一致。营销还推广“更健康”选项,如低卡路里饮料以吸引女性的健康意识。这种营销不仅强化了关于饮酒的性别期望,还忽视了怀孕期间饮酒的严重风险,包括胎儿酒精谱系障碍。
这些策略凸显了对酒精营销进行全面限制的重要性,这是减少有害酒精使用和限制人群水平饮酒的最具成本效益的政策杠杆之一。然而,尽管过去几十年间主要卫生机构提出了国际授权,但进展缓慢。政府面临制定和实施此类法规的重大挑战,主要由于数字营销的不透明性和暴露可靠数据的缺乏。因此,即使引入有效法规,监管机构监督行业合规的手段有限。
认识到这些挑战,世界卫生组织强调迫切需要快速、可扩展和低资源工具,以有效监测个体对在线酒精营销的暴露和参与。一种日益流行的收集数字营销数据的方法是屏幕录制技术,实时捕捉参与者的在线活动以识别营销内容暴露。然而,这些数据的分析资源密集,并因可能捕获敏感第三方信息而引发伦理关切。
深度学习和人脸模糊等匿名化技术的最新进展显示出检测图像中酒精产品的潜力,并减少研究人员查看敏感屏幕内容的需求。尽管取得进展,但尚无现有工具能够跨多种媒体格式自动检测品牌级酒精营销。为填补这一空白,研究人员开发了首个人工智能(AI)驱动系统,用于检测图像和视频数据中澳大利亚顶级酒精饮料品牌的数字营销内容,并使用真实世界社交媒体录制视频验证其性能。
方法
SCANNER Alcohol系统开发概述
SCANNER Alcohol是一个自动化系统,使用监督深度学习算法检测图像和视频数据中的酒精品牌标识。该系统整合了两个深度学习模型:YOLOv8和PaddleOCR。YOLOv8(You Only Look Once version 8)是一种用于实时目标检测的卷积神经网络。YOLOv8单次分析整个图像(“一次查看”),同时检测目标、生成边界框并对每个目标进行分类(如啤酒或葡萄酒品牌)。它设计用于检测多尺度目标并学习细粒度空间特征,使其能够识别大小标识,即使部分遮挡或嵌入复杂视觉场景中。这使得YOLOv8快速准确,特别适用于检测短暂出现(如快速滚动时)或杂乱环境(如网红内容或促销信息流)中的酒精品牌。
PaddleOCR是一种从图像中提取文本的开源光学字符识别(OCR)框架。它包括文本检测(识别图像中文本出现位置)和文本识别(读取和解释文本本身),允许模型识别不同字体、方向和视觉设置中的品牌名称。在SCANNER Alcohol中,PaddleOCR通过识别使用文本密集型标识或出现在字幕、包装或叠加在视频/图像上的促销叠加层中的品牌来补充YOLOv8。这些模型共同使SCANNER Alcohol能够跨多种媒体格式检测基于图像和文本的酒精品牌参考。
训练库开发与模型训练
SCANNER Alcohol开发用于检测澳大利亚七类产品(啤酒、葡萄酒、苹果酒、烈酒、即饮(RTD)饮料、酒类商店和其他)共134个独特酒精品牌。品牌选择基于使用Euromonitor Passport数据的顶级市场份额。从该列表中,研究人员包括了132个具有活跃媒体存在的顶级酒精品牌,并排除了不进行产品营销的品牌(如某些葡萄酒品牌)。另外两个关注组织——Diageo和DrinkWise——也被纳入“其他”类别。在134个品牌中,89个酒精品牌使用目标检测(YOLOv8)和OCR(PaddleOCR)进行训练。其余45个主要呈现文本丰富标识的品牌仅使用基于OCR的文本检测纳入。
研究人员从谷歌、官方品牌网站和社交媒体账户为纳入目标检测模型(YOLOv8)的89个品牌获取了8710张高分辨率品牌图像。图像由训练有素的研究助理在经验丰富的软件工程师监督下使用V7 Darwin软件手动注释。应用分割掩码并按产品类别和品牌标记,侧重于标识和品牌标记的基于区域注释,而非全图像标注。为增加可变性和改进泛化能力,应用了自动数据增强(翻转、旋转和颜色/对比度调整)。还使用了人在环方法,定期审查模型输出以指导选择额外图像(如模型在小图像上表现不佳,则注释并添加额外小图像至训练数据),允许迭代优化训练数据集并在连续周期中改进检测性能。
注释图像数据集分为训练集(80%)和验证集(20%)。模型训练在Google Cloud上进行,限于非可识别训练数据。为防止过拟合,使用验证数据集在整个训练过程中监控模型性能,确保模型学习可泛化模式而非记忆训练图像。所有参与者屏幕录制处理均在安全、机构控制的GPU服务器上执行。屏幕录制根据机构伦理和数据安全协议存储在Microsoft Azure上。
SCANNER Alcohol性能分两个阶段评估:(i)使用标准机器学习指标进行算法验证;(ii)通过比较SCANNER检测与接地真值手动编码,使用社交媒体屏幕录制进行真实世界测试。
算法验证
研究人员使用验证数据集验证了SCANNER Alcohol的目标检测性能,并应用标准评估指标,包括平均精度(AP)、平均召回率(AR)和F1分数。AP在不同交并比(IOU)阈值下计算。IOU评估预测边界框与真实边界框之间的空间重叠,而AP测量每目标真实阳性检测相对于总检测。为获得稳健的整体性能指标,通过平均IOU阈值从0.5到0.95(以0.05为增量)的AP来计算平均精度均值(mAP),提供跨不同空间对齐水平的检测性能稳健度量。
此外,评估了AR和F1分数。AR评估模型检测所有相关目标的能力,而F1分数(精度和召回率的调和平均数)提供平衡检测性能和方面的单一性能度量。较高F1分数表明优异的整体检测准确性。因此,通过考虑mAP、AR和F1分数,实现了对SCANNER Alcohol目标检测能力的全面平衡评估。
真实世界测试
研究人员使用社交媒体屏幕录制评估了SCANNER Alcohol的真实世界性能,旨在解决两个问题:(i)SCANNER Alcohol检测数字媒体中品牌酒精内容的准确度如何?(ii)SCANNER Alcohol产生假阳性(即错误分类非品牌内容为酒精营销,产生“噪声”)的频率如何?
为评估检测准确性,研究人员捕获并分析了134个酒精品牌中各一个官方活跃社交媒体账户的移动屏幕录制(如可用)。Instagram被优先考虑,因为大多数纳入品牌维护活跃Instagram账户,且年轻人广泛使用。如果品牌没有活跃Instagram账户,则使用Facebook。尽管TikTok在年轻人中非常流行,但澳大利亚大多数主要酒精公司不维护官方TikTok账户。排除近期无活动(2025年6月前12个月内无帖子)的品牌账户,因为SCANNER Alcohol在2024年6月前可用帖子的图像上训练。共纳入119个品牌账户。
对于每个品牌,记录访问账户时遇到的前三个帖子,滚动时捕获全屏。这些录制有意简短,通常每个品牌少于一分钟,以确保一致性并捕获标准化品牌内容样本,用于评估SCANNER Alcohol检测中的真阳性和假阴性。
为加强评估假阳性(噪声)的能力,还分析了13名8-25岁澳大利亚参与者捐赠的12小时11分钟非结构化屏幕录制,反映典型数字设备使用。与官方品牌账户的结构化录制不同,该数据集反映自然使用,包含各种内容(包括大量非酒精材料)和平台(如TikTok、Snapchat)。这提供了SCANNER Alcohol区分相关与无关内容的严格测试。
所有视频数据(品牌账户录制和非结构化录制)均通过SCANNER Alcohol和手动编码分析。SCANNER Alcohol检测输出包括每视频帧识别的品牌名称(帧率:每秒16帧)。作为过滤步骤,排除出现在四个或更少连续帧中的检测(0.25秒),视其为假阳性。该阈值在真实世界测试协议开发过程中根据经验确定。通过观察测试数据,持续发现持续四帧或更少的检测是由短暂出现的视觉特征(如运动模糊、字幕或具有类似标识颜色或形状的背景元素)引起的假阳性,而非真实品牌出现。
持续超过此阈值的SCANNER Alcohol检测被视为阳性SCANNER Alcohol检测。为反映系统预期用途,将连续帧级检测合并为单个帖子/广告“实例”。所有性能指标和任何手动验证均在帖子/广告级别而非每帧计算,并与手动编码比较以分类每个为真阳性(正确检测酒精营销)或假阳性(错误分类)。
使用以下指标评估SCANNER Alcohol性能:真阳性率:模型正确识别的酒精品牌帖子比例;假阴性率:模型遗漏的酒精品牌帖子比例;误报率:错误标记为阳性的酒精品牌帖子比例(假阳性/(真阳性+假阳性))。
结果
算法验证结果
模型在酒精品牌类别中表现出强大的目标检测性能。目标检测的mAP范围从0.92(烈酒品牌)到0.97(RTD品牌),整体平均0.94。AR在0.93(苹果酒品牌)到0.99(酒类商店品牌)间略有变化,平均0.96,表明模型识别相关目标的高灵敏度。反映精度和召回平衡的F1分数范围从0.93(苹果酒和烈酒品牌)到0.97(RTD和酒类商店品牌),平均0.95,证实模型在检测和分类酒精品牌类别方面具有高整体准确性。
基于文本的标识设计在目标检测指标中表现低于基于图像的标识。例如,Dirty Granny(0.65 mAP,0.71 AR,0.71 F1分数)、Captain Morgan(0.82 mAP,0.83 AR,0.86 F1分数)和Yellowglen(0.78 mAP,0.83 AR,0.88 F1分数)均表现出较低检测准确性。如上文方法部分所述,该限制通过纳入OCR用于品牌名称检测以及SCANNER Alcohol内的目标检测得到解决(除45个仅使用OCR检测而无目标检测的品牌外)。SCANNER Alcohol作为图像和文本检测工具的性能通过下面呈现的真实世界性能指标详细说明。
SCANNER Alcohol真实世界性能
SCANNER Alcohol模型在检测屏幕录制社交媒体视频中的酒精品牌内容方面表现出强大整体性能,包括品牌网站访问和非结构化社交媒体使用。它实现了98.9%的高真阳性率(367个手动编码实例中的363个)。相应地,假阴性率低至1.1%,表明约每100个品牌帖子中有一个被遗漏。
模型还表现出高精度。在SCANNER Alcohol生成的389个总检测中,26个为假阳性。这对应于6.7%的误报率,意味着当模型将帖子识别为酒精品牌时,正确率超过93%。处理社交媒体视频中提取的带阳性检测帧示例如图1所示。
讨论
SCANNER Alcohol是首个专门设计用于使用目标和文本检测在品牌级别检测数字酒精营销的自动化系统,解决了公共卫生机构强调的关键空白。研究结果表明模型性能优异,SCANNER Alcohol在算法验证期间实现高AP(平均0.94 mAP),在真实世界测试中真阳性检测率达98.9%。
其他现有用于酒精产品检测的深度学习算法包括ABIDLA模型及其后继者ABIDLA2。这些模型与SCANNER Alcohol的主要焦点不同,因为它们设计用于分类酒精饮料(在图像级别),而SCANNER Alcohol专门设计用于检测和识别图像和屏幕录制中的酒精品牌内容。此外,SCANNER Alcohol和ABIDLA在注释和训练方法上存在差异。ABIDLA2采用半监督自训练方法以最小化手动标记需求。该过程允许模型使用自身预测优化学习,可提高效率但也可能在标记过程中引入噪声或不准确性。相比之下,SCANNER Alcohol使用手动分割和人在环方法以确保特定图像区域(如标识)的精确标记。这一细致过程可能有助于SCANNER Alcohol模型性能的高准确性。
SCANNER Alcohol和ABIDLA2在验证和测试方法上进一步不同。ABIDLA2使用其自身数据集中网络爬取的、未手动检查或注释的弱标记图像的保留部分进行评估。相比之下,SCANNER Alcohol在完全手动注释的数据集上验证,并进一步在真实世界移动社交媒体使用屏幕录制上测试。后者评估是对该领域的新颖重要贡献,因为它在动态、真实数字环境中测试模型性能。此外,SCANNER Alcohol整合基于图像的标识检测和通过OCR的文本识别,这对品牌监测至关重要。相比之下,ABIDLA2仅专注于旨在饮料识别的图像级视觉分类。
然而,SCANNER Alcohol并非没有限制。尽管误报率低(6.7%),但在实际应用中仍需考虑假阳性,特别是在分析大量数据时。PaddleOCR高度敏感,有利于检测品牌,但也可能导致误分类类似品牌名称的常见词或名称。例如,歌手Taylor Swift被错误检测为葡萄酒品牌Taylors。因此,为未来使用SCANNER Alcohol,研究人员添加了手动验证步骤以过滤假阳性并确保真实世界使用的准确性。
其次,SCANNER Alcohol训练用于检测澳大利亚前134个酒精品牌,意味着小生产商的营销可能无法检测。然而,大型生产商负责大部分营销支出,通常拥有全球品牌和影响力,对儿童、青少年和重度饮酒者等脆弱人群构成更大威胁。此外,由于品牌级粒度能够识别特定公司的潜在政策违规,该工具与危害减少策略和世界卫生组织对快速、可扩展监测解决方案的呼吁一致。使SCANNER Alcohol适应其他区域可能只需对训练数据库进行最小修订,因为许多主要酒精品牌具有全球存在。
第三,SCANNER Alcohol专注于品牌本身意味着它不检测无品牌酒精内容或其他上下文线索(如某人可见消费酒精)。虽然重点适合监测明确酒精营销的目标,但从危害减少立场看,识别社交媒体数据中的非品牌酒精描绘仍然相关。即使无明确品牌,重复暴露酒精可正常化饮酒行为并加剧脆弱群体风险。未来研究可结合和测试品牌和产品级检测模型,以实现在线平台上酒精相关暴露的更全面分析。
研究人员计划使用SCANNER Alcohol通过移动屏幕录制评估年轻人对在线酒精营销的暴露。为保护隐私,可在数据由SCANNER Alcohol处理前应用自动人脸模糊(如适当)。系统分析录制无需研究人员查看原始镜头,当需要手动检查时,仅审查检测品牌的静止帧而非完整视频。该方法最小化暴露于敏感数据并符合伦理数据处理标准。
展望未来,研究人员旨在扩展SCANNER Alcohol以检测更多酒精品牌,同时继续依赖手动、人工验证注释以保持极高模型性能。还计划使系统适应其他媒体(如电视体育广播)并扩展架构以识别其他类型数字营销,包括不健康食品、赌博、婴儿配方奶粉和含尼古丁产品(包括电子烟)。同时,探索整合大型视觉模型以增强视觉检测能力,大型语言模型以实现营销传播及其符合广告准则的自动化内容分析。此更广范围有潜力在有害营销的多个方面加强监管监督。
结论
强大、全面和符合伦理的数字酒精营销监测系统对于使政府和监管机构能够制定有效政策、评估其影响并追究酒精行业责任至关重要。SCANNER Alcohol有潜力支持全球努力保护脆弱人群免受酒精生产商和零售商的经济剥削,这些行为已知会增加疾病和过早死亡风险。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号