基于机器学习空间预测模型的泰国胆管癌发病率比较研究及其公共卫生意义

【字体: 时间:2025年06月08日 来源:BMC Public Health 3.5

编辑推荐:

  本研究针对泰国胆管癌(CCA)高发但传统统计方法预测精度不足的问题,研究人员创新性地采用线性回归、随机森林(Random Forest)、神经网络(Neural Network)和极限梯度提升(XGBoost)四种机器学习模型,基于海拔、水源距离等空间变量构建CCA发病率预测体系。结果显示随机森林模型预测效能最优(测试集R2 =71.66%),证实空间因素可有效预测CCA年龄标准化发病率(ASR),为泰国区域化防控策略提供数据支撑,同时验证机器学习在空间流行病学中的应用价值。

  

胆管癌(Cholangiocarcinoma, CCA)在泰国东北部呈现惊人的地域聚集性,全球最高发病率达85/10万人年,这种"癌症地图"现象主要与肝吸虫(Opisthorchis viverrini)感染相关。尽管已知水质、海拔等环境因素影响疾病分布,但传统统计方法难以捕捉复杂的非线性关系,且既往研究多局限于局部区域。如何通过先进算法整合多维空间数据,建立全国范围的精准预测模型,成为泰国公共卫生领域亟待解决的课题。

孔敬大学公共卫生学院联合泰国四大癌症登记处的研究团队,开展了一项跨越2012-2021年的回顾性队列研究。研究人员创新性地将机器学习引入空间流行病学领域,通过对6,379例CCA病例数据的挖掘,首次在全国尺度上比较了不同算法的预测效能,相关成果发表于《BMC Public Health》。

研究采用70:30比例随机拆分数据集,运用Root Mean Square Error(RMSE)和R2
指标系统评估了四种模型。关键技术包括:1)从四大基于人口的癌症登记系统(PBCRs)获取标准化病例数据;2)整合海拔、水源距离等5类空间变量;3)采用随机森林的变量重要性分析识别关键预测因子;4)区域化性能对比策略。

主要结果
Demographic and spatial characteristics
纳入的6,379例CCA呈现明显性别差异(男性63.9%)和地域聚集性,东北部病例占比61.1%,其ASR达13.4/10万人年,显著高于其他区域。空间变量分析显示平均海拔187.4米,水源距离中位数为0米,揭示居民与水体的密切接触。

CCA incidence by region and sex
全国ASR为8.9/10万人年,男性发病率是女性的2.1倍。空间分布呈现梯度特征:东北部>北部>中部>南部,这种格局与已知的肝吸虫流行区高度吻合。

The Machine Learning models for predictions CCA in Thailand
随机森林在整体数据集表现最优(训练集R2
=72.07%,测试集71.66%),其预测误差(RMSE=9.022)显著低于线性回归(16.078)。区域分析发现算法效能存在地理异质性:北部最佳模型仍为随机森林(R2
=87.30%),而南部XGBoost表现突出(R2
=63.04%),反映不同区域致病因素的差异性。

Variable importance analysis
海拔是CCA最强的空间预测因子(重要性32.4%),其次为水源距离和人口密度。这一发现印证了低海拔水域环境通过影响肝吸虫生命周期进而导致CCA风险升高的生物学机制。

讨论与意义
该研究首次证实机器学习在CCA空间预测中的优越性,随机森林因能捕捉环境因子的非线性交互作用而表现突出。研究突破传统统计的线性假设局限,建立的预测模型可精准识别高风险区域(如东北部低海拔水域周边),为泰国实施差异化的筛查策略提供科学依据。

值得注意的是,模型性能的区域差异暗示CCA的病因复杂性:在样本量充足的东北部,环境因素解释度高达76.81%,而南部较低的解释度(R2
<63%)提示可能存在未被测量的风险因子。研究还呼应了泰国国家人工智能战略(NAIS),示范了AI在公共卫生领域的转化应用价值。

未来研究需整合更多微观层面的行为数据(如生鱼食用习惯)和气候变迁影响,以提升模型精度。当前成果已为资源有限地区开展精准防控树立典范,通过机器学习将"癌症地图"转化为"防控导航图",标志着空间流行病学进入智能预测新时代。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号