机器学习识别了婴儿血管瘤的免疫-围产期预测因素

《Frontiers in Pediatrics》:Machine learning identifies immune-perinatal predictors of infantile hemangioma

【字体: 时间:2025年11月04日 来源:Frontiers in Pediatrics 2.0

编辑推荐:

  本研究采用机器学习方法整合围产期特征和血清免疫炎症标志物,构建了预测婴儿血管瘤高风险的模型。通过XGBoost算法和SHAP解释分析,发现早产、低出生体重、VEGF、CRP及SAA水平是主要预测因子。模型在内部验证集AUC达0.935,外部验证集0.870,证实其有效性和泛化能力。研究为早期风险分层和个性化干预提供了工具。

  婴儿血管瘤(Infantile Hemangioma, IH)是一种在婴儿期常见的良性血管病变,通常表现为皮肤和软组织的异常毛细血管增生。尽管大多数婴儿血管瘤具有自限性,能够随时间自然消退,但仍有部分病例会在早期阶段迅速增殖,引发一系列严重并发症,如溃疡、出血、感染、功能障碍,甚至危及生命。此外,这些病变可能造成显著的外观变化,进而对婴儿的身心健康和社交适应能力产生负面影响。因此,早期识别高风险病例对于及时干预、减轻疾病负担和改善长期预后具有重要意义。

婴儿血管瘤的自然病程包括一个明显的增殖期,通常在出生后1至6个月内,其中前三个月是增殖最为迅速的阶段。在这一阶段,血管瘤细胞表现出高度的分裂活性,导致肿瘤快速增大。如果未能在早期识别并干预高风险病例,可能会导致不可逆的组织损伤和严重并发症。因此,建立有效的风险分层模型,能够帮助临床医生在增殖期及时采取干预措施,对改善患儿预后至关重要。

然而,目前用于识别婴儿血管瘤风险因素的工具主要依赖于临床评分系统或经验性判断,这些方法在敏感性、特异性和可扩展性方面存在局限。传统的统计方法往往只能纳入有限的变量,难以全面反映IH复杂的发病机制,包括遗传、免疫、环境和子宫内因素的相互作用。近年来,机器学习(Machine Learning, ML)技术在疾病预测模型中展现出巨大潜力,能够处理高维数据,识别非线性关系,并构建高精度的预测模型。尽管ML在临床医学中的应用逐渐增多,但在IH研究领域,尤其是亚洲人群中的应用仍较为有限,这表明在不同人群中应用ML进行IH风险预测具有重要的创新性和现实意义。

本研究通过整合围产期特征与血清免疫炎症生物标志物,构建了一个“免疫-围产期特征组合”模型,以预测婴儿血管瘤的发生风险。研究共纳入1,466名婴儿和幼儿,其中81例被确诊为IH。通过回顾性数据分析,研究者利用XGBoost、随机森林(Random Forest, RF)、支持向量机(Support Vector Machine, SVM)和K近邻(k-Nearest Neighbors, KNN)四种经典机器学习算法,对多个临床变量进行分析和建模。这些变量包括人口学信息、围产期特征、母体和婴儿的健康状况、实验室生物标志物等,涵盖了从出生前到出生后的多种潜在风险因素。

在模型构建过程中,研究者首先进行了数据预处理,包括缺失值的处理和变量筛选。对于缺失率低于5%的变量,采用简单的中位数或众数进行填补;而对于缺失率较高的变量,则使用多重填补方法,以保留变量间的相关性并提高模型的稳定性。随后,通过单变量和多变量逻辑回归分析,确定了多个与IH发生显著相关的独立风险因素,包括早产、多胎妊娠、低出生体重以及血清中VEGF、CRP和SAA水平的升高。这些生物标志物与炎症和免疫激活密切相关,为IH的免疫机制提供了直接的病理生理支持。

为了进一步优化模型,研究者采用XGBoost算法进行特征选择和模型训练,并通过交叉验证和外部验证评估其性能。结果表明,XGBoost模型在训练集和内部验证集中表现出卓越的预测能力,其曲线下面积(AUC)分别为0.952和0.935,而在外部验证集中,AUC为0.870,显示了该模型在不同人群中的良好泛化能力。此外,SHAP(SHapley Additive exPlanations)分析被用于解释模型输出,识别出SAA、VEGF和低出生体重是最关键的预测因素,这表明IH的发生与先天免疫失调密切相关。

在模型的临床解释方面,SHAP分析不仅揭示了变量对预测结果的影响程度,还提供了个体层面的预测解释。例如,通过SHAP力图(force plots),研究者能够展示特定病例中哪些因素对其风险预测贡献最大。这些分析为临床决策提供了支持,使医生能够更准确地评估每个婴儿的发病风险,并据此制定个性化的监测和干预策略。

本研究的成果表明,XGBoost模型在多个指标上均优于其他算法,不仅具有更高的预测准确率,还表现出更强的稳定性。这种模型可以有效区分高风险和低风险婴儿,从而为临床提供有力的决策支持。此外,模型的可解释性特征(如SHAP分析)有助于增强临床透明度,提高医生和患者对预测结果的信任度。

在讨论部分,研究者进一步探讨了模型所揭示的关键风险因素背后的生物学机制。例如,SAA和CRP作为急性期炎症标志物,其水平升高可能反映了免疫系统的异常激活,这种激活可能促进血管生成,进而导致血管瘤的形成。VEGF作为一种重要的促血管生成因子,在血管瘤的增殖阶段表现出显著升高,提示其在IH病理过程中的关键作用。同时,低出生体重、早产和多胎妊娠等围产期因素可能通过诱发缺氧状态,进一步激活HIF-1α等信号通路,促进血管生成和肿瘤发展。此外,研究者还指出,这些因素可能通过影响免疫系统的成熟和功能,间接促进血管瘤的发生。

本研究的局限性也得到了充分讨论。首先,研究数据主要来源于单一中心,尽管进行了外部验证,但地理和人群的多样性仍可能影响模型的普适性。其次,部分免疫生物标志物(如SAA和CRP)可能受到感染或药物治疗的干扰,这可能影响模型的准确性。未来的研究应考虑动态监测这些指标,以提高预测的精确度。此外,XGBoost等复杂模型虽然具有较高的预测能力,但其“黑箱”特性可能限制其在临床中的接受度。因此,未来的研究可以探索更具解释性的模型,并结合更大规模、多中心的数据集以验证模型的稳健性。

总体而言,本研究通过整合围产期信息和免疫炎症生物标志物,构建了一个高效且可解释的预测模型,能够准确识别婴儿血管瘤的高风险病例。这一成果不仅有助于提高IH的早期诊断率,还为制定个性化干预策略提供了科学依据。此外,研究还为理解免疫介导的血管肿瘤发生机制提供了新的视角,具有重要的临床和科研价值。未来的研究可以进一步扩展模型的应用范围,探索其在不同人群和不同亚型血管瘤中的表现,并结合更广泛的临床数据以提高模型的适用性和准确性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号