
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习聚类分析的职业健康队列研究:揭示不同风险特征与病假模式的员工亚群
【字体: 大 中 小 】 时间:2025年07月31日 来源:Journal of Occupational Rehabilitation 2.5
编辑推荐:
本研究针对工作残疾带来的社会经济挑战,采用无监督(PCA+K-means)与有监督(XGBoost)机器学习方法,对12,099名芬兰员工进行聚类分析,识别出6个具有不同病假模式(SA)的临床相关亚群。研究发现心血管疾病组(Cluster 4)和职场氛围缺陷组(Cluster 2)分别与长期(>30天)和短期(1-10天)病假显著相关,为职业健康干预提供了精准靶点。
在现代社会,工作残疾已成为福利国家面临的重大经济挑战。芬兰最新统计显示,心理健康问题已超越肌肉骨骼疾病,成为病假(SA)的首要原因,占2022年补偿病假天数的35.7%。这种转变伴随着人口老龄化趋势,使得如何有效维持劳动能力成为迫切的公共卫生问题。传统研究多关注单一风险因素,但现实中,多种风险因素常以复杂组合形式共存于个体中。
Tampere University(芬兰坦佩雷大学)的研究团队创新性地将机器学习技术应用于职业健康领域。他们分析了12,099名芬兰员工2011-2019年的健康检查数据,包含104个变量,涵盖从抑郁症状到职场氛围的多元维度。这项发表在《Journal of Occupational Rehabilitation》的研究,首次通过数据驱动方法揭示了员工群体中隐藏的风险特征组合模式。
研究采用三大关键技术:1) 基于多变量问卷数据的多变量降维分析(PCA);2) 利用K-means算法对主成分进行聚类;3) 采用XGBoost分类器和Shapley值解析集群特征。数据来源于芬兰大型职业健康服务商Finla的医疗记录,随访期长达2年,监测长期(>30天)和重复短期(1-10天)病假发生情况。
研究结果
Cluster 1健康员工组
• 特征:职场氛围积极(PC2得分高),管理支持度高
• 病假率最低(长期3.6%,短期6.7%)
• Shapley分析显示"工作被赞赏"是最重要保护因素
Cluster 2管理缺陷组

Cluster 3抑郁症状组
• 特征:DEPS抑郁量表高分(PC1主导),年轻化(平均42.5岁)
• 独特表型:34%报告失眠,但工作能力评分未显著下降
• 长期病假风险是参照组的2.6倍(OR=2.6)
Cluster 4心血管代谢组
• 特征:高血压(62%)、糖尿病(35%)等(PC5主导)
• 悖论:仅21%认为症状影响工作,但长期病假风险显著(AME+4.3%)
• 提示该群体可能低估健康风险,需加强主动监测
Cluster 5症状高负荷组
• 特征:头晕(PC4)、感觉异常等8.79个症状/人
• AUDIT酒精评分高,但器质性疾病少
• 短期病假风险最高(13.8%),提示心身综合征可能
Cluster 6工作能力下降组
• 决定性特征:42%患肌肉骨骼疾病,工作能力自评差(PC3)
• 长期病假发生率13%,为参照组3.6倍
• 独特模式:高躯体症状但低抑郁评分
研究结论指出,数据驱动的聚类方法能识别传统分析难以发现的员工风险组合模式。特别值得注意的是:1) 心血管代谢风险群体对工作能力的主观评估与实际风险存在偏差;2) 改善管理质量(Cluster 2)可能比健康干预更能减少短期病假;3) 症状高负荷群体(Cluster 5)需要心身医学干预而非单纯器质性疾病治疗。这些发现为精准化职业健康管理提供了科学依据,建议将聚类分析纳入企业健康报告系统,实现资源优化配置。
讨论部分强调,该研究首次将解释性人工智能(Shapley值)应用于职业健康集群解析,揭示了不同风险组合与病假模式的非线性关系。未来研究需验证这些发现在其他人群的普适性,并开发针对特定集群的干预方案。特别是在老龄化背景下,对Cluster 4的早期识别和干预可能显著降低突发性工作残疾风险。
生物通微信公众号
知名企业招聘