基于LSTM机器学习模型的美国弗吉尼亚州中东和北非人群COVID-19死亡率差异研究

【字体: 时间:2025年08月17日 来源:Journal of Racial and Ethnic Health Disparities 2.4

编辑推荐:

  本研究针对美国中东和北非(MENA)人群在COVID-19大流行中的健康不平等问题,通过开发长短期记忆(LSTM)机器学习模型对弗吉尼亚州死亡记录进行人群细分,首次揭示该人群超额死亡率达22.4%-30.1%,且移民群体COVID-19死亡占比高达12.6%,为完善少数族裔健康监测提供了创新方法。

  

在COVID-19大流行期间,美国各族裔群体的健康不平等现象引发广泛关注。然而由于制度性分类缺陷,中东和北非(Middle Eastern and North African, MENA)人群长期被归入"白人"类别,导致其健康风险成为"隐形危机"。现有数据显示,密歇根州阿拉伯裔感染率是非西班牙裔白人的2.6倍,多伦多中东裔住院率高达白人3-4倍,但全美范围内缺乏系统性死亡率研究。这种数据缺失源于1978年美国行政管理和预算局(OMB)将MENA人群划入白人种族的分类标准,与其实际遭受的种族歧视经历严重脱节。

为破解这一困局,研究人员创新性地开发了基于长短期记忆(Long Short-Term Memory, LSTM)递归神经网络的姓名分类算法。该方法突破传统名单匹配技术的局限,通过字节对编码(byte pair encoding)将姓名分解为字母组合子簇,在弗吉尼亚州卫生部门799,532条出生和死亡记录上训练模型,最终实现82%的F1分数。研究团队将该模型应用于2015-2022年全州死亡记录,结合出生国信息(涵盖阿富汗至也门等19个国家),首次系统评估了MENA人群的疫情死亡率差异。

关键技术包括:1) 构建LSTM模型对MENA特征姓名进行概率识别;2) 采用泊松回归计算超额死亡率比率(观察死亡数/预期死亡数);3) 基于ICD-10代码U07.1统计COVID-19相关死亡占比。

主要发现

  1. 1.

    超额死亡显著:MENA人群2020年死亡率较疫情前激增22.4%,峰值时期(2022年1月)超额死亡率比率达1.49,显著高于非西班牙裔白人的1.23。

  2. 2.

    移民群体更脆弱:外国出生MENA人群2020年超额死亡率比率为1.13,而美国出生群体为0.95,显示"健康移民效应"在疫情期间失效。

  3. 3.

    性别差异明显:2022年外国出生MENA男性COVID-19死亡占比达10.6%,居所有族裔男性之首;女性占比8.7%也位居第二。

  4. 4.

    空间分布影响:95%的弗吉尼亚MENA人口居住在大都会区(主要集中于华盛顿特区北弗吉尼亚地区),可能加剧早期疫情暴露风险。

讨论与意义

这项发表于《Journal of Racial and Ethnic Health Disparities》的研究具有双重突破:方法学上创建的LSTM姓名分类模型克服了传统技术需要外部姓名列表的限制,能识别特殊音译名;实证层面首次证实MENA人群——尤其是移民群体——承受着与非洲裔、亚裔相当的COVID-19死亡率负担。研究结果强烈支持OMB计划在2030年人口普查中增设MENA分类的必要性,为公共卫生监测中的种族分类改革提供了关键证据。

值得注意的是,MENA群体内部存在显著异质性(如阿拉伯与非阿拉伯、不同原籍国、宗教差异等),但小样本量限制了下层分析。未来研究应结合疫苗接种障碍、医疗获取困难等社会决定因素,深入解析驱动健康差异的机制。这项研究不仅填补了疫情健康不平等研究的重要空白,更开创了利用机器学习解决制度性数据缺失问题的新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号