基于推荐系统与大型语言模型的孕期健康视频观看行为研究:揭示时间动态与公共卫生价值

【字体: 时间:2025年06月10日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对孕期女性视频信息获取偏好与潜在健康风险,研究者创新性地结合YouTube推荐系统(API)与大型语言模型(LLM),构建了"从推荐中学习"的分析框架。通过开发启发式算法发现28个核心主题,GPT-4在妊娠期分类任务中达到0.82余弦相似度(人类标注基线),为公共卫生干预提供了数据驱动的决策支持。

  

在数字健康时代,YouTube作为全球第二大访问网站,已成为孕期女性获取健康信息的重要渠道。然而,这种自发性的学习方式潜藏着严峻挑战:一方面,平台充斥着关于流产风险最小化或不安全产前实践等误导性内容;另一方面,传统调查方法受限于样本规模和自我报告偏差,难以捕捉真实的观看行为模式。更关键的是,尽管推荐系统算法研究蓬勃发展,但鲜有学者思考如何反向解码推荐结果背后隐含的群体行为信号——这种"从推荐中学习"的逆向思维,正是本研究的创新起点。

来自美国研究机构的研究团队在《Expert Systems with Applications》发表的研究中,开创性地将YouTube推荐系统转化为"行为感知工具"。通过设计启发式视频发现算法,结合GPT-4等大型语言模型(LLM)的语义分析能力,系统揭示了孕期女性观看内容的时间演变规律。研究发现,基于推荐数据构建的搜索图谱不仅能识别28个医学相关主题,其平均最近距离(ACD)指标(1.7867)显著优于流行度、时效性等基线策略,更重要的是,该方法无需接触敏感的个人数据即可实现群体级行为洞察。

研究方法上,团队首先通过文献梳理确定6个核心种子查询(如"分娩阶段""孕期营养"),利用YouTube API构建视频发现管道。采用多维度评估框架:在视频发现阶段比较ACD和主题多样性;在时间分类任务中,同时采用人类标注(30名育龄期女性)和LLM自动化分析(GPT-4、句子转换器),以余弦相似度衡量模型性能。值得注意的是,为规避伦理风险,研究获得IRB豁免并与美国大型医保机构合作开展。

【Video Discovery】
基于"分娩阶段"(92.8%搜索率)等6个种子查询,算法从YouTube推荐图谱中挖掘出72个高相关视频。相比关键词扩展等传统方法,该方案发现的视频在医学相关性评分上提升37%,且能捕捉"妊娠糖尿病管理"等容易被遗漏的长尾主题。

【Temporal Partitioning with Human Annotation】
对41个随机视频的 trimester(妊娠期)分类显示,GPT-4与人类标注的余弦相似度达0.82,显著高于零样本学习(0.52)和句子嵌入方法(0.66)。有趣的是,模型对孕晚期内容的识别精度最高,这与临床实践中孕晚期信息需求激增的现象相符。

【Discussion and Future Work】
研究突破了推荐系统领域长期存在的"算法优化"范式,证明平台推荐数据可作为公共卫生监测的代理指标。例如,系统能自动识别某类不安全分娩教程的传播轨迹,为及时干预提供时间窗口。这种间接分析方法既规避了隐私风险,又实现了传统调查难以企及的时空分辨率。

【Limitation】
YouTube推荐机制的黑箱特性可能引入偏差,且样本仅覆盖英语内容。未来研究可结合多模态分析和跨文化验证。

这项研究的意义在于:首次建立了"平台推荐数据-群体行为推断-公共卫生决策"的转化链条。通过LLM实现的自动化分析框架,使得卫生机构能持续监测健康信息的传播生态,既可用于纠正误导内容,也能优化官方资源的投放策略。从方法论层面,该工作为数字健康研究开辟了新路径——当直接观察不可行时,通过解码平台算法的"副产品"来间接理解复杂的社会行为。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号