基于主成分分析的南卡罗来纳州少数民族种族数据公平性改进研究——以COVID-19为例
《Population Health Metrics》:Improving racial data equity among minority groups in South Carolina using COVID-19 as an example: application of principal components analysis
【字体:
大
中
小
】
时间:2025年10月10日
来源:Population Health Metrics 2.5
编辑推荐:
本研究针对公共卫生实践中因种族数据聚合导致的数据不平等问题,以COVID-19为例,通过主成分分析(PCA)方法系统评估了南卡罗来纳州单一种族与组合种族分类对人群年龄-性别分布及疫情指标的影响。研究发现组合分类可有效避免小规模人群的数据抑制,显著改善AI-AN、亚裔和NH-OPI等少数民族的年轻群体表征,为公共卫生决策提供更精准的数据支持。
在公共卫生领域,数据收集和报告过程中的种族分类方式可能无形中加剧健康不平等。当不同种族和族裔群体被笼统地归并为“其他”类别时,其独特的健康需求和社会差异就会被掩盖。这种数据不平等现象在COVID-19大流行期间尤为突出——尽管多项研究表明少数民族群体感染率和死亡率显著更高,但许多公共卫生仪表盘仍将美国印第安人/阿拉斯加原住民(AI-AN)、亚裔、夏威夷原住民/其他太平洋岛民(NH-OPI)等群体合并报告,导致针对性的干预措施缺乏数据支持。
南卡罗来纳州就是一个典型例子。该州在疫情期间将种族数据简单分为白人单一种族、黑人或非裔美国人(Black-AA)单一种族、未知种族和“其他”种族四大类。这种粗放的数据处理方式使得AI-AN等少数民族的健康风险被严重低估。更值得关注的是,2020年人口普查数据显示,仅有39%的AI-AN人口被归类为单一种族,而61%的AI-AN人口同时认同其他种族背景。这意味着仅使用单一种族分类会遗漏超过半数的AI-AN人群。
为解决这一关键问题,Rubaiya等研究人员在《Population Health Metrics》上发表了创新性研究。他们通过重新分析南卡罗来纳州的人口普查数据和COVID-19监测数据,首次系统比较了单一种族分类与组合单一种族和多种族分类对公共卫生指标的影响。研究团队创造性地应用主成分分析(PCA)这一多元统计方法,定量评估不同种族分类方式下年龄-性别分布的差异,为数据公平性研究提供了新的方法论工具。
研究方法上,作者团队整合了美国社区调查(ACS)2018-2022年的5年人口估计数据与南卡罗来纳州公共卫生部(DPH)2020-2023年的COVID-19监测数据。通过构建年龄-性别金字塔和主成分分析(PCA)模型,比较了单一种族类别与组合单一种族和多种族类别在人口分布和疫情指标上的差异。研究特别关注了AI-AN、亚裔和NH-OPI等少数民族群体,采用多变量方差分析(MANOVA)进行统计检验,确保研究发现的可靠性。
人口分布特征
研究发现南卡罗来纳州5,142,761居民中,单一种族类别占主导地位:白人(65.1%)、Black-AA(25.8%)、其他(2.4%)、亚裔(1.7%)和NH-OPI(0.05%)。然而,一个关键发现是:认同“AI-AN和白人”这一多种族组合的人口(0.5%)超过了AI-AN单一种族人口(0.3%)。
与组合单一种族和多种族类别相比,单一种族类别在AI-AN、亚裔和NH-OPI人群中对年轻年龄组存在系统性低估。例如,单一种族类别低估了20岁以下亚裔女性的人口规模、25-29岁AI-AN男性的比例,以及40岁以下NH-OPI个体在各种年龄组中的代表性。这一发现证实了单一种族分类无法准确反映少数民族的人口结构特征。
COVID-19感染率差异
研究分析了1,818,217例COVID-19病例,发现组合单一种族和多种族类别显示出更稳定的感染率,特别是在AI-AN和NH-OPI人群中。尽管排除了7.4%缺失种族和9.1%未知种族的数据,研究仍发现不同种族和西班牙裔/拉丁裔 heritage人群的感染率金字塔形态存在显著差异。
一个值得注意的模式是:在大多数工作年龄组中,女性的感染率高于男性。这种现象可能源于女性在护理相关职业(包括学校、日托或医疗保健)中的更高代表性,以及长期护理设施中女性居民比例较高。在组合单一种族和其他多种族类别中,85岁以上年龄组的男女感染率均为最高。
COVID-19死亡率分布
对20,471例死亡数据的分析显示,组合单一种族和多种族类别在各个年龄组提供了更丰富的信息,特别是对AI-AN和NH-OPI人群。
与感染率模式相反,死亡率在各年龄组中普遍表现为男性高于女性。85岁以上年龄组的死亡率差异尤为明显:Black-AA男性和女性、亚裔男性以及“其他”单一种族和其他多种族类别的男性和女性死亡率均高于白人对照组。这一发现与先前关于COVID-19对非白人群体影响更大的报告一致,但细分数据揭示了更复杂的模式。
主成分分析结果
PCA模型成功分解了COVID-19感染率的多维数据,PC1主要捕获与总体感染率规模相关的变异,而PC2则捕捉了性别间的差异模式。
分析显示,AI-AN和“其他”种族在单一种族类别与组合类别之间的感染率分布存在统计学显著差异(P<0.0001和P=0.0002)。在单一种族类别中,AI-AN人群的男女感染率模式在不同年龄组呈现明显不对称分布,而这种差异在组合类别中大大减弱,表明种族分类方式直接影响性别特异性健康模式的识别。
研究的结论部分强调,与组合单一种族和多种族类别相比,单一种族类别不仅导致信息丢失,还对AI-AN、亚裔和NH-OPI人群的年轻年龄组产生偏见。随着年轻世代越来越多地认同多种族背景,仅使用单一种族类别将导致公共卫生报告实践中的不公平表征。
讨论部分指出,本研究与近期倡导使用非互斥分类进行数据分解的报告相一致。例如,马萨诸塞州的研究人员将孕妇数据分解为12个种族和34个民族群体,发现只有在数据分解时才能真正揭示COVID-19疫苗接种覆盖率的差异。类似地,美国结核病数据的分解分析显示,排除多种族或西班牙裔AI-AN个体会实质性低估该群体的健康差异。
该研究的实践意义在于,使用组合单一种族和多种族类别是一种可行且有效的数据公平实现方法,能够避免对小规模多样化人群的数据抑制或聚合。考虑组合类别可以防止低估少数民族群体的人口构成,是准确评估健康差异的必要条件。
研究同时承认了三个主要局限性:排除缺失或未知种族数据可能低估COVID-19率;监测数据中可能存在种族报告错误;极端年龄组的小规模人口导致不稳定的率估计。尽管如此,该研究为公共卫生数据收集和报告标准提供了重要启示,强调需要更细致、更包容的种族分类方法,以确保所有群体都能在健康数据中获得公平表征。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号