编辑推荐:
这篇综述聚焦于不依赖传感器数据、利用健康记录信息预测老年人跌倒风险的机器学习(ML)工具。通过评估相关研究,发现 ML 模型在数据充足时预测准确性较高,但仍需在更多群体中验证,对改善跌倒预防管理意义重大。
背景
老年人跌倒十分常见,后果可能很严重,是导致老年人发病和死亡的主要原因之一,还会带来沉重的经济负担。识别跌倒高风险患者,是有效分配预防资源的关键。虽然利用传感器数据的机器学习(ML)模型在预测跌倒方面取得了不错的成果,但在实际临床中,并非所有患者都能使用高科技设备和传感器。因此,本研究旨在评估不使用传感器数据,仅依靠常规收集的临床记录来预测老年人跌倒风险的 ML 算法相关文献,并为未来的应用提供指导。
方法
本研究采用范围综述的方法,遵循系统评价和荟萃分析的首选报告项目(PRISMA)方法。分别于 2022 年 6 月 22 日和 2025 年 2 月 9 日进行了两次检索,检索数据库为 PubMed 和 Scopus,检索的文献需是 2002 年 1 月 1 日至 2024 年 12 月 31 日期间发表的、以英文撰写的同行评审出版物。纳入标准为聚焦于用 ML 预测老年人群跌倒风险的研究,“老年人” 定义为 65 岁及以上个体;排除不关注老年人跌倒预测或依靠传感器数据预测风险的研究,以及系统综述、荟萃分析、观点论文、病例报告和社论等。由一位评审员提取数据,另一位进行复核,提取的信息包括文献的基本信息、研究人群特征、ML 模型使用的变量和结果等123。
结果
共检索到 6331 项研究,最终 19 篇文章符合数据提取标准。这 19 项研究中,多数(16 项,84%)来自高收入国家,其中日本和美国各有 4 项研究。研究数据来源既有非住院个体(12 项研究,425,230 人),也有住院患者(7 项研究,315,726 人)。
在纳入研究的模型中,共涉及 455 个变量,主要分为 19 类,最常见的变量与多种情况相关,其次是心血管测量 / 疾病相关变量,以及与移动性和平衡相关的变量。使用的模型种类超过 65 个,最具代表性的模型类别为神经网络模型(占比 20%)、逻辑回归变体(占比 19%)和随机森林方法(占比 16%)。不同模型的性能差异较大,最高表现的模型是支持向量机(SVM),其接受者操作特征曲线下面积(AUC)达到 1.0,准确率为 100%(采用留出法验证);而表现最差的模型由 Suzuki 等人构建,使用卷积神经网络(CNN),仅达到 65% 的准确率456。
讨论
复杂与简单算法
不同 ML 模型的性能受模型复杂度和训练数据可用性的影响。简单模型如决策树和逻辑回归,在有限数据集上训练时也能表现出较好性能;而复杂模型如神经网络,通常需要大量数据才能有效发挥作用。例如,Deschamps 等人使用决策树算法,在 426 个样本上达到了 82% 的准确率;Womack 等人利用逻辑回归,在 275,940 个样本上获得了 0.76 的 AUC。相反,Suzuki 等人用仅 42 个样本训练 CNN,准确率仅为 65%。不过,当复杂模型在大量数据上训练时,也能展现出卓越的预测能力,如 Sharma 等人应用 CatBoost 算法在 203,584 个样本的验证数据集上,得到了 0.70 的 AUC78。
常见和重要变量
研究发现,最常见的同类变量主要与心血管状态和无需传感器评估的移动性相关。此外,还有一些 “其他” 类别的变量,也与跌倒风险相关。综合来看,最重要的五类变量分别是移动性 / 平衡、其他、心血管、心理健康和人口统计数据。其中,人口统计数据可能值得进一步研究,因其反映了健康的社会决定因素与跌倒之间的关联910。
公平性
公平性和最小化偏差在精准医学中越来越重要。统计偏差指模型性能的系统误差,社会偏差则是指这些误差对代表性不足群体造成的不公平或不平等影响。在 ML 模型设计中,应更加关注如何减少偏差,纳入更多健康的社会决定因素变量,有助于提高模型的公平性1112。
常见差距
不同研究对算法性能的分析存在不一致性。仅依靠准确率来评估模型性能可能存在误导,因为它未考虑事件分布信息。采用更透明的报告方式和阈值无关的指标,如接受者操作特征曲线下面积(AUROC)或精确召回曲线下面积(AUPRC),对准确评估医疗保健研究中的算法性能至关重要13。
局限性
本研究存在一定局限性。搜索策略可能未涵盖所有相关研究,尤其是计算机科学期刊中未被检索数据库收录的文献;关键词使用也可能导致部分研究遗漏。此外,纳入研究中对老年人的年龄标准存在差异,这可能影响研究结果对统一界定的老年人群体的普适性1415。
结论
本范围综述表明,利用常规记录数据的 ML 模型,在个体研究中能以较高准确率预测老年人跌倒风险。但目前研究主要集中在高收入国家,研究人群多样,这凸显了跌倒预测的复杂性和采取针对性方法的必要性。未来需要在更多不同群体中验证这些模型,以推动该领域的进一步发展 。