揭示青少年近视的预测因素:一项采用机器学习方法的二次数据分析
《Frontiers in Medicine》:Uncovering predictors of myopia in youth: a secondary data analysis using a machine learning approach
【字体:
大
中
小
】
时间:2025年10月22日
来源:Frontiers in Medicine 3.0
编辑推荐:
整合1995年美国Orinda纵向研究(含屈光参数及行为数据)与2022-2023年中国横断面行为数据集,通过机器学习模型(逻辑回归、EBM、GBDT、DNN、XGBoost)识别风险因素,并采用三种集成策略(序列、平均、迁移学习)融合结果。发现父母近视史和户外活动为普遍风险因素与保护因素,迁移学习最佳,有效整合临床与行为数据,提升预测精度(OLSM AUC达0.92,中国DNN准确率71%)。研究证实近视由遗传、生物标志物(如轴长)及现代行为(屏幕时间、姿势)共同驱动,提出多模态框架,为全球近视防控提供新路径。
近年来,近视作为一种高度流行的屈光不正问题,已成为全球公共健康领域的重要挑战。数据显示,自1990年以来,儿童和青少年群体中近视的患病率迅速上升,从大约24%-36%增加至接近40%,预计到2050年将影响超过7.4亿年轻人。这种增长趋势尤其在东亚和东南亚的工业化城市中更为显著,其中年轻成年人的近视率可达80%-90%。相比之下,欧洲等西方发达国家的近视率较低,通常在20%-40%之间,而一些发展中国家和教育体系较为宽松的地区则普遍低于10%。近视不仅影响视力健康,还与多种严重的眼部疾病密切相关,如高度近视可能导致视网膜脱离、青光眼等,因此准确识别近视的风险因素对于制定有效的预防和干预措施至关重要。
近视的发生机制复杂,涉及遗传易感性和环境暴露之间的相互作用。遗传因素在近视的形成中扮演着重要角色,研究表明,家族史是近视风险的强预测因子。此外,近年来的研究强调了环境因素在近视发展中的关键作用,尤其是现代生活方式的改变,如长时间使用电子设备、减少户外活动等。这些行为模式的转变与近视的快速上升密切相关,尤其是在教育压力较大的城市环境中。因此,理解近视的遗传和环境风险因素不仅有助于揭示其发病机制,也为开发更精准的预测模型提供了理论基础。
本研究旨在整合两个具有代表性的数据集,分别来自1995年的美国纵向研究(OLSM)和2022-2023年的中国横断面调查,以构建一个全面的近视风险预测框架。美国数据集(OLSM)包含约500名儿童的详细眼部生物参数(如轴长、球面等效屈光度)以及生活方式因素,而中国数据集则聚焦于现代行为因素,如屏幕使用时间、姿势、居住环境等。这两个数据集在研究设计、样本量、变量类型和时间背景上存在显著差异,因此研究团队采用多种机器学习方法,包括逻辑回归、可解释增强机器(EBM)、梯度提升决策树(GBDT)等,分别对两个数据集进行建模,并通过SHAP(Shapley Additive exPlanations)方法评估模型的可解释性。此外,还测试了三种集成策略(顺序集成、简单平均集成和迁移学习),以探索如何有效融合这两个结构差异较大的数据集。
研究结果表明,无论是美国还是中国数据集,父母近视史都被确认为一个普遍的风险因素,而户外活动时间则被发现具有保护作用。在OLSM数据集中,球面等效屈光度(SPHEQ)和父母近视史是最重要的预测变量,模型的AUC(曲线下面积)达到了0.92,显示出较强的分类能力。而在2022-2023年的中国数据集中,深度神经网络(DNN)模型达到了71%的准确率,识别出屏幕使用时间、姿势和父母病史为主要风险因素。值得注意的是,迁移学习方法在整合两个数据集时表现最为出色,不仅放大了如户外活动和姿势等特征的重要性,还保留了屏幕使用时间等核心行为预测变量。这种方法有效地结合了OLSM数据集的临床深度和中国数据集的现代行为细节,为未来构建更实用的多模态风险预测框架奠定了基础。
从模型分析的角度来看,美国数据集的模型强调了传统的眼部生物参数,如球面等效屈光度、轴长、前房深度等,这些参数与近视的严重程度密切相关。而中国数据集的模型则更加关注现代行为因素,如屏幕使用时间、使用姿势、近距离工作时间等。这种差异主要源于两个数据集在研究设计和变量编码方式上的不同。美国数据集主要依赖于连续的生物测量数据,而中国数据集则使用了更多的有序分类变量,如屏幕距离、作业时间等。此外,两个数据集在时间背景和地理环境上的差异也对风险因素的识别产生了影响。例如,美国数据集反映了20世纪末的近视风险因素,而中国数据集则捕捉到了数字时代的行为模式,这些模式在当代社会中尤为突出。
在模型训练过程中,研究团队采用了多种方法以提高预测的准确性和可解释性。例如,在美国数据集中,逻辑回归模型(Model-1)通过随机梯度下降(SGD)进行优化,并使用网格搜索(GridSearchCV)进行超参数调优,最终选择最优的正则化参数(alpha=0.001)。该模型在训练集上的AUC为0.890,准确率为0.896,而在交叉验证中的AUC为0.875,准确率为0.892,显示出良好的泛化能力。EBM模型(Model-2)则在可解释性方面表现出色,其AUC为0.92±0.03,表明其在区分近视和非近视个体方面具有较高的能力。模型还识别出了一些交互项,如球面等效屈光度与户外活动时间、球面等效屈光度与父母病史等,这些交互项共同解释了模型预测能力的40%。这表明,除了单一变量的影响外,变量之间的相互作用在近视风险预测中同样重要。
对于中国数据集,研究团队采用了深度神经网络(DNN)和XGBoost两种模型。DNN模型(Model-a)在验证集上的准确率为87%,通过SHAP分析揭示了屏幕使用时间、计算机使用距离、电视观看距离、躺着使用电子设备以及睡眠时间等变量对预测结果的影响。这些变量在现代生活中尤为常见,且与近视的发生密切相关。相比之下,XGBoost模型(Model-b)在测试集上的准确率为66.88%,其在近视个体(类别1)上的精确度为71%,而在非近视个体(类别0)上的精确度为30%。尽管XGBoost模型在分类性能上略逊于DNN模型,但它在识别关键风险因素方面仍表现出较高的能力,如屏幕时间、使用姿势等。这些结果表明,虽然两种模型在预测能力上存在差异,但它们在识别现代生活方式因素方面都具有重要价值。
为了整合两个数据集的预测结果,研究团队测试了三种集成方法:顺序集成、简单平均集成和迁移学习。顺序集成(Ensemble A)保留了两个数据集各自的特征权重,但未能充分反映户外活动等关键变量的重要性。简单平均集成(Ensemble B)则平衡了两个模型的贡献,使得一些原本被低估的变量(如使用姿势和屏幕距离)在最终预测中获得更高的权重。相比之下,迁移学习(Ensemble C)通过将美国数据集的模型作为特征提取器,再在重新组织的中国数据集上进行微调,显著提升了模型的灵活性和适应性。迁移学习不仅保留了核心的预测变量,如屏幕使用时间和父母病史,还增强了对户外活动等保护性因素的重视。这种策略能够有效应对不同数据集之间的结构差异,同时捕捉到跨时代的风险因素变化。
在实际应用中,模型的整合和风险评估具有重要意义。通过将两个数据集的预测结果相结合,可以构建一个更全面的近视风险预测框架,涵盖遗传、生物和行为因素。这种方法不仅提高了预测的准确性,还为不同人群和不同时期的近视防控提供了科学依据。然而,模型的整合仍然面临一些挑战。例如,两个数据集的变量类型不同,美国数据集主要依赖于连续的生物测量数据,而中国数据集则更多使用有序分类变量。这种差异可能导致某些变量在模型中的权重被低估或高估,进而影响最终的风险预测结果。此外,不同时间背景下的诊断标准和环境因素也可能对结果产生影响,例如,在20世纪末的美国数据集中,户外活动和近距离工作的时间分布与21世纪的中国数据集存在显著差异。因此,如何在整合过程中合理处理这些差异,是未来研究需要重点解决的问题。
尽管存在这些挑战,研究团队通过多种方法成功地融合了两个数据集的预测结果。例如,迁移学习方法能够有效捕捉到两个数据集之间的共同风险因素,同时保留各自独特的变量。这种策略不仅提高了模型的适应性,还为未来构建更实用的多模态风险预测框架提供了启示。此外,研究团队还发现,不同集成方法在风险评估中的表现存在差异。顺序集成保留了数据集的特定优势,但未能充分整合跨数据集的变量关系;简单平均集成则提供了更均衡的风险评估,但缺乏对变量间复杂关系的深入理解;而迁移学习则在保持模型灵活性的同时,显著提升了对关键风险因素的识别能力。
从实际应用的角度来看,这些研究结果为近视的早期筛查和干预提供了重要依据。通过识别父母病史、户外活动时间、屏幕使用时间等关键风险因素,可以为高风险人群制定个性化的防控措施。例如,对于具有家族近视史的儿童,可以建议增加户外活动时间,以降低近视发展的可能性。而对于长时间使用电子设备的青少年,则可以通过调整使用姿势和屏幕距离,减少对眼睛的不良影响。此外,研究团队还强调了模型可解释性的重要性,特别是在临床实践中,医生和患者需要了解哪些因素对近视风险影响最大,以便采取针对性的干预措施。
然而,当前的研究仍存在一定的局限性。首先,两个数据集的样本量和研究设计存在差异,这可能会影响模型的泛化能力和适用性。美国数据集的样本量较小(约500人),而中国数据集的样本量较大(约10万人),这可能导致模型在不同人群中的表现存在偏差。其次,模型的输出尚未在真实世界场景中进行验证,这限制了其在临床实践中的应用价值。此外,研究团队在整合过程中未能充分考虑不同数据集之间的变量编码方式差异,这可能会影响最终的风险预测结果。因此,未来的研究需要进一步优化模型的整合策略,以提高其在不同人群和环境中的适用性。
总的来说,本研究通过整合两个具有代表性的数据集,构建了一个多模态的近视风险预测框架。这一框架不仅揭示了近视的遗传和环境风险因素,还展示了如何通过机器学习方法提高预测的准确性和可解释性。尽管研究仍面临一些挑战,但其提出的集成策略为未来近视风险预测研究提供了新的思路和方法。未来的研究应进一步验证这些模型在不同人群中的表现,并探索其在实时风险评估和临床决策支持中的应用潜力。通过不断优化和改进,这些模型有望成为近视防控的重要工具,为全球范围内的公共健康政策提供科学依据。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号