
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于过采样技术与机器学习算法在有限数据场景下预测当前及未来龋齿修复需求的研究
【字体: 大 中 小 】 时间:2025年09月04日 来源:JMIR Medical Informatics 3.8
编辑推荐:
本研究针对青少年龋齿风险预测中数据量小且类别不平衡的挑战,开发了结合随机过采样(ROSE)的极端梯度提升(XGBoost)算法。通过218名13-17岁芬兰青少年的临床及问卷数据,模型实现AUC 0.77和F1-score 0.82的优异表现,发现既往充填史和糖摄入量是最强预测因子,为低成本筛查工具开发提供新思路。
龋齿作为全球最常见的健康问题之一,每年造成巨大的医疗负担和社会成本。尽管现有龋齿风险评估工具(CRATs)如Cariogram已被广泛应用,但其依赖唾液检测等复杂参数,且难以应对小样本数据场景下的类别不平衡问题。更棘手的是,青少年群体中龋齿进展迅速,但传统方法无法有效整合行为习惯、饮食模式等多元数据实现精准预测。
为突破这些限制,来自芬兰奥卢大学的研究团队创新性地将机器学习(ML)与过采样技术结合,在《JMIR Medical Informatics》发表重要成果。研究团队收集了218名13-17岁芬兰青少年的临床检查数据(含放射检查)和问卷调查数据,采用国际龋齿检测评估系统(ICDAS)严格分级。通过4折交叉验证的嵌套重采样技术,开发了基于极端梯度提升(XGBoost)的预测模型,并应用随机过采样示例(ROSE)方法生成2000例合成数据以解决数据不平衡问题。特征重要性分析采用Shapley加性解释(SHAP)值实现模型可解释性。
研究结果
方法学创新:
采用4折交叉验证的嵌套重采样技术构建模型,每个折叠包含75%训练集和25%测试集。超参数调优通过网格搜索完成,ROSE过采样后训练集龋齿案例从107例扩增至2007例。
模型性能:
基线XGBoost模型表现出色,平均曲线下面积(AUC)达0.77(±0.04),F1-score为0.82(±0.06)。过采样后性能略有下降但保持稳定(AUC 0.74±0.05,F1-score 0.79±0.04),敏感性始终维持在0.78以上。
关键预测因子:
SHAP分析揭示既往充填史是最强预测特征(在所有折叠中排名第一),其次为每日添加糖摄入量(平均50.6±81.3g)。吸烟频率、含氟牙膏使用情况和刷牙频率等行为因素也显示出重要预测价值。过采样后次要预测因子重要性显著提升。
临床意义:
该研究首次在龋齿预测领域实现"双突破":一是证明XGBoost算法在小样本(218例)场景下的适用性,二是验证ROSE过采样技术对口腔健康数据增强的有效性。模型的高敏感性(0.85)特别适合筛查场景,虽然特异性(0.56)提示需结合临床判断。
这项研究的创新价值在于将复杂的机器学习技术转化为临床实用的决策支持工具。通过SHAP值的可视化解读,牙科医生能直观理解"为什么这个青少年属于高风险群体",从而制定个性化预防方案。例如,对高糖摄入的青少年可针对性开展营养指导,而对既往充填史阳性者加强复查频率。
未来研究需通过纵向队列验证模型的时序预测能力,并探索将算法整合到电子健康档案系统。正如作者Elina V?yrynen团队强调的,这种低成本筛查工具尤其适合医疗资源有限的地区,有望改变当前"重治疗、轻预防"的牙科医疗模式,实现从被动修复到主动干预的范式转变。
生物通微信公众号
知名企业招聘