
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于LSTM机器学习模型的美国弗吉尼亚州中东和北非人群COVID-19死亡率差异研究
【字体: 大 中 小 】 时间:2025年08月17日 来源:Journal of Racial and Ethnic Health Disparities 2.4
编辑推荐:
本研究针对美国中东和北非(MENA)人群在COVID-19大流行中的健康不平等问题,通过开发长短期记忆(LSTM)机器学习模型对弗吉尼亚州死亡记录进行人群细分,首次揭示该人群超额死亡率达22.4%-30.1%,且移民群体COVID-19死亡占比高达12.6%,为完善少数族裔健康监测提供了创新方法。
在COVID-19大流行期间,美国各族裔群体的健康不平等现象引发广泛关注。然而由于制度性分类缺陷,中东和北非(Middle Eastern and North African, MENA)人群长期被归入"白人"类别,导致其健康风险成为"隐形危机"。现有数据显示,密歇根州阿拉伯裔感染率是非西班牙裔白人的2.6倍,多伦多中东裔住院率高达白人3-4倍,但全美范围内缺乏系统性死亡率研究。这种数据缺失源于1978年美国行政管理和预算局(OMB)将MENA人群划入白人种族的分类标准,与其实际遭受的种族歧视经历严重脱节。
为破解这一困局,研究人员创新性地开发了基于长短期记忆(Long Short-Term Memory, LSTM)递归神经网络的姓名分类算法。该方法突破传统名单匹配技术的局限,通过字节对编码(byte pair encoding)将姓名分解为字母组合子簇,在弗吉尼亚州卫生部门799,532条出生和死亡记录上训练模型,最终实现82%的F1分数。研究团队将该模型应用于2015-2022年全州死亡记录,结合出生国信息(涵盖阿富汗至也门等19个国家),首次系统评估了MENA人群的疫情死亡率差异。
关键技术包括:1) 构建LSTM模型对MENA特征姓名进行概率识别;2) 采用泊松回归计算超额死亡率比率(观察死亡数/预期死亡数);3) 基于ICD-10代码U07.1统计COVID-19相关死亡占比。
主要发现:
超额死亡显著:MENA人群2020年死亡率较疫情前激增22.4%,峰值时期(2022年1月)超额死亡率比率达1.49,显著高于非西班牙裔白人的1.23。

移民群体更脆弱:外国出生MENA人群2020年超额死亡率比率为1.13,而美国出生群体为0.95,显示"健康移民效应"在疫情期间失效。
性别差异明显:2022年外国出生MENA男性COVID-19死亡占比达10.6%,居所有族裔男性之首;女性占比8.7%也位居第二。
空间分布影响:95%的弗吉尼亚MENA人口居住在大都会区(主要集中于华盛顿特区北弗吉尼亚地区),可能加剧早期疫情暴露风险。
讨论与意义:
这项发表于《Journal of Racial and Ethnic Health Disparities》的研究具有双重突破:方法学上创建的LSTM姓名分类模型克服了传统技术需要外部姓名列表的限制,能识别特殊音译名;实证层面首次证实MENA人群——尤其是移民群体——承受着与非洲裔、亚裔相当的COVID-19死亡率负担。研究结果强烈支持OMB计划在2030年人口普查中增设MENA分类的必要性,为公共卫生监测中的种族分类改革提供了关键证据。
值得注意的是,MENA群体内部存在显著异质性(如阿拉伯与非阿拉伯、不同原籍国、宗教差异等),但小样本量限制了下层分析。未来研究应结合疫苗接种障碍、医疗获取困难等社会决定因素,深入解析驱动健康差异的机制。这项研究不仅填补了疫情健康不平等研究的重要空白,更开创了利用机器学习解决制度性数据缺失问题的新范式。
生物通微信公众号
知名企业招聘