基于Google Trends数据的癌症发病率精准快速预测新模型:CanTrend模型的构建与验证

【字体: 时间:2025年05月07日 来源:BMC Public Health 3.5

编辑推荐:

  本研究针对传统癌症发病率预测模型(如APC模型)存在的数据滞后和过拟合问题,创新性地利用Google Trends的相对搜索量指数(RSVI)结合历史发病率数据,开发了名为CanTrend的预测模型。该模型在50个美国州和54个国家验证中,预测误差中位数仅-0.98%,显著优于传统方法,为医疗资源分配提供了实时、可靠的决策依据。

  

癌症是全球主要死因之一,每年导致约1000万人死亡。然而,现有癌症发病率数据通常滞后2-4年,严重影响了医疗资源的及时调配。传统预测方法如年龄-时期-队列模型(Age-Period-Cohort, APC)存在"识别问题",容易高估发病率且计算复杂。面对这一挑战,来自埃及Misr国际大学、坦塔大学等机构的研究团队Mahmoud Hamed、Berlanty A. Zayed和Fotouh R. Mansour*创新性地利用Google Trends大数据,开发了名为CanTrend的新型预测模型,相关成果发表在《BMC Public Health》上。

研究团队采用多源数据融合的方法:从世界卫生组织(WHO)和北美中央癌症登记协会(NAACCR)获取2016-2020年实际癌症发病率数据;通过Google Trends采集"cancer"主题的年度相对搜索量指数(Relative Search Volume Index, RSVI),该指数以0-100分衡量特定时段/地区内搜索热度。核心算法是将上年实际发病率乘以当年与上年RSVI比值(RSVIt/RSVIt-1)来预测当年发病率。验证阶段计算了预测值与实际值的百分比误差,覆盖50个美国州和54个国家2017-2023年数据。

结果部分显示:

  1. 模型准确性:2017年美国各州预测误差中位数为-0.98%,大部分州误差<6%。如阿拉巴马州预测26,621例(实际27,409例,误差-2.9%),纽约州预测125,255例(实际117,153例,误差6.9%)。
  2. 跨年度验证:2018-2020年预测保持稳定,佛罗里达州2020年预测133,114例(实际130,258例,误差2.2%),但阿肯色州误差达23.9%,显示人口流动等因素影响。
  3. 国际应用:模型成功预测54国2021-2023年发病率,美国2023年预测2,165,247例居首,英国1,040,818例次之。
  4. COVID-19应对:疫情期间利用预测值替代缺失数据,如2021年美国发病率基于2020年数据和RSVI变化推算。

讨论与结论指出:CanTrend模型突破传统三大局限——数据滞后性(实时RSVI更新)、APC模型过拟合(通过搜索行为平滑突变数据)、计算复杂性(仅需乘除运算)。其价值体现在:

  1. 公共卫生:助力医疗机构提前1-2年规划诊疗资源,如根据2020年预测提前部署2021年肿瘤科床位;
  2. 方法学:首次证实网络搜索行为与癌症发病率存在显著相关性(r>0.9),为数字流行病学提供新范式;
  3. 成本效益:完全基于免费公开数据,低收入国家亦可应用。

局限性在于长期预测需依赖持续更新的RSVI数据,且文化差异可能影响搜索行为与发病率的关联强度。未来研究可探索结合机器学习优化权重分配,或整合多平台(如社交媒体)数据提升鲁棒性。这项工作为实时疾病监测开辟了新途径,尤其在数据基础设施薄弱地区具有重要实践意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号