基于互联网搜索查询的整合选择模式方法在自杀率预测中的有效性研究

【字体: 时间:2025年06月12日 来源:Journal of Affective Disorders Reports CS3.8

编辑推荐:

  为解决自杀预防中实时监测的难题,研究人员采用整合选择模式方法(spike-and-slab回归),结合51个Google Trends搜索查询数据,预测美日两国自杀率。结果显示,该方法在美国数据中预测准确率最高(MAPE 3.25%),但在日本表现欠佳,表明其效果受文化语言环境影响。研究为自杀实时监测提供了新思路,同时强调需结合多方法验证。

  

自杀预防已成为全球公共卫生的核心议题,但传统自杀监测存在严重滞后性——官方数据通常延迟1-2年发布,且存在漏报问题。这种滞后严重阻碍了及时干预措施的制定。近年来,随着互联网普及,学者们开始探索利用搜索引擎查询数据预测自杀趋势,但现有方法存在明显局限:要么仅选用少量直接相关关键词(如"自杀""抑郁"),可能遗漏潜在预测因子;要么纳入大量搜索词导致模型过拟合。

为突破这一困境,研究人员开展了一项创新研究,通过结合两种传统方法的优势,提出"整合选择模式"新策略。该研究选取美国和日本作为对比案例,使用2004-2019年两国月度自杀数据及51个Google Trends搜索词的相对搜索量(RSV),构建了四种预测模型进行比较。研究论文发表在《Journal of Affective Disorders Reports》上。

研究采用三大关键技术:1)基于贝叶斯结构时间序列(BSTS)框架构建基础模型;2)应用spike-and-slab回归实现变量选择,通过设置π=0.05-0.20控制非零系数比例;3)采用重复保留法(repeated holdout)验证模型稳定性,确保70%以上数据用于训练。

在"2. Materials and methods"部分,研究详细设计了四类模型:模型(1)为仅含趋势和季节性的基准模型;模型(2-1)采用选择模式,仅使用"自杀""抑郁"两个关键词;模型(2-2)采用整合模式,纳入全部51个搜索词;模型(3)为提出的整合选择模式,通过spike-and-slab回归自动筛选有效预测因子。所有模型参数通过马尔可夫链蒙特卡洛(MCMC)方法估计,使用R包bsts(0.9.10)实现。

"3. Results"部分显示,在美国数据中,整合选择模式(模型3)表现最优:自杀率预测平均绝对百分比误差(MAPE)仅3.25%,自杀人数平均绝对误差(MAE)133.30,显著优于其他模型。有趣的是,模型自动筛选出的高概率预测词包括"家庭暴力"(概率0.97)和"疼痛"等非直接相关词汇。通过重复保留法验证,该模型展现出稳定优势(平均MAPE 6.98% vs 整合模式的7.09%)。

然而在日本案例中,结果截然不同——传统选择模式(模型2-1)反而更优(MAPE 4.97%),整合选择模式表现接近基准模型。进一步分层分析发现,即便在美国,整合选择模式对女性自杀率的预测也逊于选择模式;而在日本,该模式却对女性自杀率预测相对有效(MAPE 6.16%)。

"4. Discussion"部分深入探讨了这些差异的文化根源。研究者指出,美国个体主义文化可能使民众更自由地通过多样化搜索词表达心理状态;而日本集体主义文化中,自杀相关搜索可能更集中于特定词汇。研究强调,初始搜索词库的构建需考虑文化因素——例如日本社会对自杀的污名化可能改变搜索行为模式。

该研究的核心价值在于:1)首次将spike-and-slab回归应用于自杀预测领域,实现高效变量选择;2)证实搜索词预测效能的文化依赖性,为后续跨国研究提供方法学参考;3)为政策制定者提供实时监测工具,通过σωi

/σSRSVi

控制系数波动,平衡模型复杂度与预测精度。

研究同时指出重要局限:整合选择模式并非"万能钥匙",其效果受语言文化和人口特征显著影响。这提示未来研究需针对不同社会文化背景定制预测策略,特别是在处理性别等亚组数据时,应调整初始搜索词库构成。论文最后呼吁,在AI技术快速发展的背景下,应持续探索机器学习与传统统计模型的融合路径,以提升自杀预测的时效性和准确性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号