
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Google Trends数据的癌症发病率精准快速预测新模型:CanTrend模型的构建与验证
【字体: 大 中 小 】 时间:2025年05月07日 来源:BMC Public Health 3.5
编辑推荐:
本研究针对传统癌症发病率预测模型(如APC模型)存在的数据滞后和过拟合问题,创新性地利用Google Trends的相对搜索量指数(RSVI)结合历史发病率数据,开发了名为CanTrend的预测模型。该模型在50个美国州和54个国家验证中,预测误差中位数仅-0.98%,显著优于传统方法,为医疗资源分配提供了实时、可靠的决策依据。
癌症是全球主要死因之一,每年导致约1000万人死亡。然而,现有癌症发病率数据通常滞后2-4年,严重影响了医疗资源的及时调配。传统预测方法如年龄-时期-队列模型(Age-Period-Cohort, APC)存在"识别问题",容易高估发病率且计算复杂。面对这一挑战,来自埃及Misr国际大学、坦塔大学等机构的研究团队Mahmoud Hamed、Berlanty A. Zayed和Fotouh R. Mansour*创新性地利用Google Trends大数据,开发了名为CanTrend的新型预测模型,相关成果发表在《BMC Public Health》上。
研究团队采用多源数据融合的方法:从世界卫生组织(WHO)和北美中央癌症登记协会(NAACCR)获取2016-2020年实际癌症发病率数据;通过Google Trends采集"cancer"主题的年度相对搜索量指数(Relative Search Volume Index, RSVI),该指数以0-100分衡量特定时段/地区内搜索热度。核心算法是将上年实际发病率乘以当年与上年RSVI比值(RSVIt/RSVIt-1)来预测当年发病率。验证阶段计算了预测值与实际值的百分比误差,覆盖50个美国州和54个国家2017-2023年数据。
结果部分显示:
讨论与结论指出:CanTrend模型突破传统三大局限——数据滞后性(实时RSVI更新)、APC模型过拟合(通过搜索行为平滑突变数据)、计算复杂性(仅需乘除运算)。其价值体现在:
局限性在于长期预测需依赖持续更新的RSVI数据,且文化差异可能影响搜索行为与发病率的关联强度。未来研究可探索结合机器学习优化权重分配,或整合多平台(如社交媒体)数据提升鲁棒性。这项工作为实时疾病监测开辟了新途径,尤其在数据基础设施薄弱地区具有重要实践意义。
生物通微信公众号
知名企业招聘