远程光电容积脉搏波技术中的肤色偏见:公共数据集的人口统计学偏差及其对心率监测公平性的影响

【字体: 时间:2025年10月04日 来源:npj Digital Medicine 15.1

编辑推荐:

  本刊推荐:针对远程光电容积脉搏波(rPPG)技术中存在的肤色与性别偏差问题,研究人员系统分析了100项研究中的公共数据集,发现当前数据集严重偏向浅肤色人群(菲茨帕特里克I-III型),导致深度学习模型在深肤色人群(V-VI型)的心率估计误差显著增加(MAE从6.0 bpm升至9.5 bpm)。研究提出通过提升数据集多样性、标准化肤色报告体系(如Monk量表)及改进算法鲁棒性,推动rPPG技术在临床监测中的公平应用。

  
随着人工智能技术在医疗健康领域的深入应用,远程光电容积脉搏波(remote photoplethysmography, rPPG)技术凭借其非接触、低成本的优势,正逐渐成为心率监测的重要工具。只需普通摄像头,rPPG就能通过分析面部视频中的微小血流变化来估算心率,其应用场景涵盖新生儿监护、远程医疗、家庭护理甚至航天员健康评估等多个领域。然而,这项看似完美的技术却隐藏着一个严峻的问题——人口统计学偏差。
当前绝大多数公开的rPPG数据集存在明显的肤色和性别不平衡问题。以欧洲和东亚裔的浅肤色人群为主的数据集(如UBFC-rPPG、PURE、VIPL-HR等)被广泛使用,而包含多元种族背景的数据集(如BP4D+、MMSE-HR等)却鲜有关注。这种偏差不仅影响了算法的普适性,更可能导致对深肤色人群的心率监测误差显著增大。研究表明,传统基于色度的方法在浅肤色人群中的平均绝对误差(MAE)为5.2 bpm,而在深肤色人群中却飙升至14.1 bpm(p<0.01)。即便是表现更好的深度学习模型,误差也会从6.0 bpm增加到9.5 bpm。这种误差在临床环境中可能带来重大风险,例如在ICU监护或远程诊断中,不准确的心率读数可能导致误诊或漏诊。
为什么肤色会影响rPPG的准确性?光学机理决定了其局限性。深肤色因含有更高浓度的黑色素,对光的吸收更强、反射更弱,导致面部像素容易在RGB传感器中饱和,从而降低了基于色度的rPPG信号的信噪比。此外,性别差异也会带来影响:女性在月经周期中期的体温波动、男性更厚的表皮和胡须等因素,都会改变光信号穿透皮肤的特性,进而影响心率估计的准确性。
为了系统评估这一问题,研究团队遵循PRISMA指南对100项使用公共数据集的rPPG研究进行了跨模型审计。他们开发了一套启发式规则,将数据集中报告的民族标签映射到菲茨帕特里克皮肤类型(I–VI)和Monk肤色量表(1–10),从而量化数据集的多样性缺陷。统计结果显示,白种人(Monk 1–3)在数据集中的中位数比例接近45%,而黑人和拉丁裔(Monk 4–10)的代表性均低于2%,组间差异具有边际显著性(p=0.05)。在性别方面,UBFC-Phys(46名女性、10名男性)和BP4D+(82名女性、58名男性)等数据集存在明显的性别失衡,而VIPL-HR和OBF则偏向男性受试者。
针对上述问题,作者提出了七项关键建议:优先构建包含多元肤色参与者的数据集;采用标准化肤色报告规范(如Monk自我评估卡或手持色度计);平衡性别分布;开发适应不同人群的机器学习模型(如域适应和公平性约束算法);在包容性数据集上进行模型测试;推动大规模、多中心的数据集建设(>1000人);以及系统比较传统信号处理方法与深度学习模型在不同人口组中的表现差异。
这项研究的意义远不止于揭示技术局限,更在于为未来rPPG技术乃至整个医疗人工智能领域的公平发展指明了方向。只有通过数据包容、算法优化和标准建设,才能让技术创新真正服务于全人类。
主要技术方法方面,研究人员采用了系统文献综述与元分析相结合的方法。首先按照PRISMA指南从PubMed和IEEE Xplore检索并筛选出100篇使用公共数据集进行rPPG心率检测的研究;随后提取了数据集的元数据,包括受试者数量、性别分布、年龄范围、摄像机型号、帧率、分辨率及心率真值测量设备;进而通过启发式映射将民族标签转换为菲茨帕里克和Monk肤色类别;最后通过双人独立评分(使用PURE数据集样本)验证了肤色评估的一致性,并采用曼-惠特尼U检验进行组间差异统计。

人口统计学偏差在公共rPPG数据集中的表现

研究发现,当前主流rPPG数据集存在严重的种族与性别不平衡。UBFC-rPPG(占研究量的26%)、PURE(17%)、COHFACE(11%)等高频使用数据集以白种人为主,而VIPL-HR则以亚洲浅肤色人群为主。相比之下,BP4D+和MMSE-HR等多元族群数据集的使用率不足5%。这种偏向性直接导致模型在深肤色人群中的性能下降。

肤色对信号质量与算法性能的影响

光学机理分析表明,极深或极浅肤色可能超出RGB传感器的动态范围,导致面部像素饱和,进而降低rPPG信号的信噪比。传统色度法在菲茨帕特里克I–III型肤色中的MAE为5.2 bpm,在V–VI型中则升至14.1 bpm(p<0.01);深度学习模型虽有所改善,但误差仍从6.0 bpm增至9.5 bpm。Nowara等人的元分析进一步证实,在肤色类型VI中,MAE可达13.58 bpm,较I–V类型上升两倍以上。

性别差异带来的生理与信号变化

性别失衡亦引入算法偏差。女性在月经周期黄体中期因孕激素和雌激素升高,静息体温较高,而男性则因表皮更厚、胡须较多,会减弱绿色通道的脉冲信号。这些光学和血流动力学差异导致不同性别的心率估计误差存在区别,例如在CHROME数据集中,女性的MAE(4.49 bpm)高于男性(3.78 bpm)。

推进公平与包容性研究的建议

作者提出应通过多样化数据集构建、标准化肤色报告、性别平衡、适应性机器学习算法开发、基于包容性数据集的基准测试以及大规模多中心合作来改善当前现状。特别强调需收集超过1000名参与者、符合协调协议的多站点数据,并采用Monk量表等工具精确记录肤色信息,以提升算法泛化能力和公平性。
本研究通过大规模文献审计与量化分析,首次揭示了公共rPPG数据集中存在的系统性人口统计偏差,证明其导致模型在不同肤色和性别群体中出现显著性能差异。这一偏差不仅影响技术可靠性,更可能加剧医疗健康领域的不平等。作者呼吁研究者、数据集创建者和算法开发者共同采取行动,通过数据多样性建设、标准化评估和算法优化,推动rPPG技术走向更公平、更可靠的未来。该研究为计算机视觉和医疗人工智能领域的公平性研究提供了重要方法论借鉴和实践方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号