利用深度摄像头和麦克风感知咳嗽者,以有效控制室内环境中的感染风险

《Indoor Environments》:Sensing a Coughing Person Using a Depth Camera and Microphones for Effective Infection Control in Indoor Environments

【字体: 时间:2025年11月08日 来源:Indoor Environments

编辑推荐:

  检测咳嗽并定位患者以控制空气传播疾病的研究中,采用深度摄像头(通过YOLOv3算法实时识别人员并计算3D坐标)和麦克风阵列(提取音频特征经CNN检测咳嗽事件)结合的方案,实验显示定位误差小于604毫米,并验证了搭载空气清洁机器人的系统可减少75.8%的受体暴露风险。

  ### 感知咳嗽者以实现室内空气传播控制的综合方法

在过去的几十年里,空气传播的传染病一直是威胁人类健康的重要问题。例如,2019年冠状病毒病(Covid-19)已被世界卫生组织(WHO)确认已造成至少700万例报告死亡 [1]。其他空气传播疾病,包括但不限于流感、肺结核、鼠疫、麻疹和炭疽,也对健康产生了显著的负面影响 [2][3][4][5][6][7][8][9][10][11]。这些生物气溶胶利用相同的传播机制,其中在咳嗽、说话或呼吸过程中释放的感染性颗粒悬浮在空气中,允许被易感宿主在一定距离和时间内吸入。

为了减少室内空气传播的感染风险,已经提出了多种控制措施,包括源头控制、通风、空气净化、紫外线消毒等。在这些措施中,源头控制被认为是最直接和有效的手段。除了直接去除感染源,从源头上减少感染颗粒的扩散也可以被视为一种源头控制。例如,Chen等人 [12] 证明,将空气净化器放置在感染源附近可以更高效地去除呼出的颗粒。此外,建议在感染源附近立即进行空气净化。配备远紫外线C(Far-UVC)光的便携式空气净化器可以用于在感染源附近灭活病原体 [13][14]。Wang等人提出了使用Far-UVC照射的单次空气消毒系统,以有效和可持续地灭活广泛的微生物 [14]。局部排气通风是另一种有效的源头控制方法。例如,Allison等人 [15] 确认,局部排气通风显著减少了牙科手术中的气溶胶,达到了操作者呼吸区至少90%的减少。Sinnige等人 [16] 也证明,局部排气通风可以有效减少医院气溶胶生成过程中的气溶胶浓度,从而降低医护人员的暴露风险。

为了实施这些控制措施,准确识别感染源及其位置至关重要。除了人类自我报告或基于症状的检测,目前还有一些方法可以用于在室内环境中自动识别感染源。例如,气溶胶采样结合聚合酶链式反应(PCR)分析可以用于检测空气中的病原体 [17][18][19][20]。然而,除非对室内所有居住者进行气溶胶采样,否则很难确定感染源。此外,PCR分析耗时,无法用于及时控制空气传播。在新冠疫情期间,红外测温技术被广泛用于检测发烧的人,这是获得呼吸道感染的指标之一 [21][22][23][24]。理论上,结合计算机视觉技术,可以识别发烧者的具体位置。然而,发烧也是许多其他疾病的一个症状。因此,需要更多的信息来更精确地定位感染源。咳嗽也是一个人可能感染呼吸道疾病的一个指标 [25][26],尽管健康人也可能咳嗽。因此,检测咳嗽者作为感染源识别的一部分是有价值的。之前的研究已经利用智能手机或智能手表等个人或可穿戴设备,结合咳嗽检测算法来检测个人的咳嗽事件 [27][28]。然而,从个人或可穿戴设备获取数据对于公共空间中的中央环境控制来说是具有挑战性的。此外,为了定位咳嗽者,还需要个人或可穿戴设备中的室内位置数据,这增加了实施的复杂性。因此,开发一种更实用的方法,可以自动检测咳嗽事件并识别咳嗽者的具体位置,对于有效的源头控制是有价值的。

一些研究尝试使用仅基于音频的方法进行咳嗽定位。例如,Silva等人 [29] 开发了一种算法,估计咳嗽声音在多个麦克风之间的到达时间,以定位猪在牲畜房中的咳嗽,验证时报告了平均定位误差为0–1.5米。然而,这种仅基于音频的系统在复杂的室内人类环境中可能无法达到足够的准确性。Pan等人 [30] 引入了一个基于声音的数字孪生框架,利用实时咳嗽识别动态调整飞机客舱通风。虽然该方法在飞机客舱中表现良好,但其有效性受限于环境中的稳定背景噪音和居住者分布。仅基于视觉的系统使用深度相机可以有效地识别和定位个体 [31][32][33][34][35][36],但它们在缺乏音频信息的情况下无法区分咳嗽事件与其他身体动作。这些局限性突显了需要结合音频和视觉信息的多模态框架。这种整合具有在现实的室内环境中提供更稳健和可靠咳嗽者识别的潜力。

因此,本研究旨在开发一种基于深度相机和麦克风传感器的方法,以检测咳嗽事件并定位相应的咳嗽者。深度相机结合对象检测算法捕捉空间数据,以获得室内环境中的个体坐标。麦克风传感器用于采集音频样本,从而检测咳嗽事件并识别咳嗽发生的位置。这种结合结构使得在室内环境中快速检测咳嗽者成为可能。进行了实验以验证该方法用于感知咳嗽者的可行性。最后,该方法被应用于实验室室内环境中,使用配备空气净化器的机器人进行人与人之间的颗粒运输源头控制,以展示该方法在感染控制中的价值。

### 方法

#### 2.1. 概述

本研究提出了一个结合深度相机技术、音频信号处理和深度学习方法的感知框架,以检测咳嗽事件并定位咳嗽者。深度相机结合对象检测算法捕捉空间数据,以获得室内环境中的三维(3D)坐标。麦克风传感器用于采集音频信号,随后通过深度学习模型进行处理,以检测咳嗽事件并定位咳嗽发生的位置。通过将麦克风检测到的咳嗽事件位置与深度相机捕捉到的个体坐标进行交叉验证,可以获得咳嗽者的具体位置。图1展示了整体的工作流程,包括基于图像的定位和基于音频的事件检测/定位的并行处理流程。该方法为室内健康监测应用提供了增强的可靠性。

#### 2.2. 基于深度相机的室内居住者坐标感知

深度相机通过测量距离来获取3D空间信息,使用结构光、飞行时间或立体视觉等技术。这些设备发射红外信号并分析其反射,以创建精确的深度图,从而在机器人、计算机视觉和人机交互等应用中发挥作用 [31][32][33][34][35][36]。本研究将YOLOv3对象检测算法集成到深度相机中,以实现室内环境中的居住者坐标确定。YOLO,即“你只看一次”,是一种最先进的实时对象检测模型,广泛用于计算机视觉应用 [37][38]。在本研究中,深度相机被固定并战略性地安装在一个垂直于z轴的平面上,以水平方向捕捉图像,确保图像平面保持垂直于z轴,如图2(a)所示。图2(b)展示了深度相机的视野(FOV)定义。请注意,任何不在相机视野范围内的居住者都无法被检测到。图2(c)展示了深度相机捕获的一张图像示例。YOLOv3算法检测到一个人,并输出该人在此图像中的2D像素坐标,而深度相机测量了该人的深度,即相机与该人之间的距离。在本研究中,检测到的居住者的中心顶点被指定为代表该人的坐标。请注意,YOLOv3被用于深度相机中,而不是更新的版本,因为我们的初步基准测试发现,在人类检测任务中,使用更新的版本并没有显著的性能提升。

#### 2.3. 基于麦克风的咳嗽者感知

##### 2.3.1. 咳嗽检测

麦克风已成为咳嗽检测的重要工具,为医疗和公共安全应用提供了高效和准确的监测能力 [39][40][41][42][43]。在本研究中,部署了一个三麦克风阵列系统以检测室内环境中的咳嗽。监控空间被划分为多个非重叠的区域,每个区域大小相等。每个麦克风被放置在不同的区域中,以确保空间分离,减少音频信息的重叠和冗余信号捕捉。为了便于咳嗽检测,开发了一个CNN模型,利用从三个不同传感器提取的音频特征来判断是否存在咳嗽。

##### 2.3.2. 咳嗽者的定位

CNN模型首先对音频段进行分类,以判断其中是否包含咳嗽事件。一旦检测到咳嗽,定位咳嗽者的具体位置对于有效的感染控制至关重要。例如,在涉及配备空气净化器的机器人进行大型空间中的实际应用时,一旦定位到咳嗽者,机器人可以直接移动到该人身边,去除呼出的病原体,从而减少病原体的扩散。因此,被识别为咳嗽的音频段将进一步被处理以进行定位。麦克风阵列的音频特征和空间线索作为输入,由DNN模型估计咳嗽者的具体位置。具体来说,主要目标是确定咳嗽者所在的特定区域。为此,开发了一个DNN模型,利用从三个不同传感器提取的音频特征来定位咳嗽者。

DNN模型的输入特征分为五类,从音频信号中提取。首先,每个音频信号被划分为短且重叠的帧,通常为25毫秒长度,重叠10毫秒,如图3(b)所示。第一类输入特征是Mel频率倒谱系数(MFCC),它们通过将音频信号的频谱特征转换为紧凑的特征向量来模仿人类听觉系统,这些特征向量与人类听觉感知更为一致 [44][45][46][47]。本研究使用了开源的Python音频分析包librosa来提取Mel频谱图 [48]。MFCC通过librosa函数 librosa.feature.mfcc 进行计算,其一般计算流程如图3(c)所示。第一步骤是预强调,可以表示为:

其中,$ y(n) $ 是强调后的音频信号幅度,$ x(n) $ 是原始音频信号幅度,$ \alpha $ 是预强调系数。随后进行短时傅里叶变换(STFT):

其中,$ X(k, m) $ 是频率索引 $ k $ 在第 $ m $ 帧的复数值,$ w(n) $ 是汉明窗函数,$ k $ 是频率索引,$ m $ 是帧索引,$ H $ 表示帧之间的跳跃长度,$ P(k, m) $ 是功率谱。接下来应用Mel滤波器组:

其中,$ f_{mel} $ 是Mel尺度转换函数,$ f(k) $ 是频率索引 $ k $ 对应的频率,$ f_{mel,l} $ 是Mel尺度上第 $ l $ 个滤波器的中心频率,$ L $ 表示Mel滤波器的数量,$ S(l, m) $ 是第 $ l $ 个Mel滤波器在第 $ m $ 帧的处理后能量。然后进行对数压缩和离散余弦变换(DCT):

其中,$ \text{MFCC}(i, m) $ 是第 $ i $ 个MFCC系数在第 $ m $ 帧的值,$ i $ 是总获得的MFCC系数数,设置为40 [50][51][52]。第二类输入特征是短时能量(STE),表示音频信号在短时和重叠帧中的能量:

其中,$ E(m) $ 是短时帧的归一化能量。STE的平均、标准差、最大值、最小值、中位数、偏度和峰度值被用作输入特征(总计7个特征)。第三类输入特征是过零率(ZCR),表示音频信号符号变化的速率,反映音频的噪声和音调特征:

其中,$ \text{ZCR}(m) $ 是第 $ m $ 帧的过零率,$ n $ 是时间索引,$ \text{sgn}(x(n)) $ 表示音频信号在时间点 $ n $ 的符号。ZCR的平均、标准差、最大值、最小值、中位数、偏度和峰度值被用作输入特征(总计7个特征)。第四类输入特征是频谱质心(SC),表示频谱的中心位置:

其中,$ SC(m) $ 是第 $ m $ 帧的频谱质心,$ k $ 是频率索引,$ P(k, m) $ 是第 $ m $ 帧的功率谱。第五类输入特征是频谱带宽(SBW),表示围绕频谱质心的频谱宽度,反映音频信号中频率的分布情况:

其中,$ SBW(m) $ 是第 $ m $ 帧的频谱带宽,$ f(k) $ 是频率索引 $ k $ 对应的频率,$ SC(m) $ 是第 $ m $ 帧的频谱质心。同样,SBW的平均、标准差、最大值、最小值、中位数、偏度和峰度值被用作输入特征(总计7个特征)。对于每个传感器,上述音频特征共产生68个不同的值:40个来自MFCC均值,7个来自STE统计,7个来自ZCR统计,7个来自SC统计,7个来自SBW统计。考虑到系统整合了三个传感器的数据,DNN模型的总输入特征向量包含204个特征。在训练前,提取的特征使用scikit-learn库中的StandardScaler特征归一化工具进行标准化,确保每个特征的均值为零,标准差为一 [53]。DNN模型的输出是一个概率向量,表示咳嗽者在室内环境中的各个区域的可能位置。其中,概率最高的区域被认为是咳嗽者所在的位置。

### 验证

为了验证所提出的方法在感知咳嗽者方面的可行性和性能,进行了两个不同的室内环境实验,分别称为案例1和案例2。

#### 3.1. 实验设置

##### 3.1.1. 案例1:单人场景

图4(a)展示了案例1的实验设置。房间尺寸为2750毫米 × 3728毫米 × 2625毫米,被划分为12个大小相等的区域。深度相机(Orbbec Astra S)被安装在坐标(1697毫米,0毫米,1341毫米),面向负y轴。水平和垂直深度分辨率为640 × 480像素。深度相机的水平视野(FOV)为58.4度,垂直FOV为45.5度。在这种设置下,单个居住者(一个真实的人)被放置在坐标(1398毫米,1434毫米,1690毫米)、(1568毫米,1972毫米,1690毫米)和(2082毫米,3022毫米,1690毫米),如图4(b)到图4(d)所示。通过将实际居住者坐标与深度相机方法检测到的坐标之间的距离来评估精度。

##### 3.1.2. 案例2:多人场景

图5展示了案例2的实验设置。房间尺寸为3672毫米 × 4892毫米 × 6268毫米,被划分为12个大小相等的区域。三个麦克风传感器被放置在区域3、7和11的中心,如图5所示。深度相机被安装在坐标(1999毫米,0毫米,970毫米)。实验场景包括三个居住者随机分布在实验区域,场景4中三个居住者被放置在距离深度相机最远的区域10、11和12,场景5在场景4的基础上增加了两个居住者在区域5和6以模拟更复杂的居住者分布,场景6进一步在区域5和6中放置了物品如箱子、储物架和椅子,以验证所提出方法在室内布局变化时的适应性和鲁棒性。该方法在有3个居住者(场景1到4)、5个居住者(场景5和6)和修改后的室内布局(场景6)的场景中均能准确定位咳嗽者。

此外,还进行了额外的实验,以比较所提出的方法与仅使用麦克风定位咳嗽者的效果。结果表明,仅使用麦克风的方法在6个场景中仅正确识别了2个场景,定位准确率为33.3%。这些结果表明,深度相机在可靠定位咳嗽者方面是必不可少的,因为它为减少误差提供了第一层筛选。

### 应用

所提出的方法可用于有效控制室内空气传播。例如,在大型空间中,通过准确定位咳嗽者,配备空气净化器的机器人可以被编程直接移动到该人身边,从而在颗粒扩散之前有效去除呼出的病原体,减少空气传播的风险。为了展示该方法的应用价值,本研究在实验室室内环境中进行了一项人与人之间的颗粒运输实验,使用了所提出的咳嗽者定位模型和空气净化机器人。

#### 4.1. 实验设置

实验在指定的室内实验室区域进行,该区域的尺寸为3565毫米 × 5400毫米 × 3184毫米,整个实验室的尺寸为10.4米 × 10.9米 × 3.2米。实验期间,房间温度保持在24°C,相对湿度为70%。通风系统保持开启,提供6.2次每小时的通风率(ACH)。区域划分和麦克风传感器的放置与案例2相同。深度相机被安装在坐标(1999毫米,0毫米,970毫米)。香薰颗粒被用作颗粒运输实验的示踪颗粒。为了保护实验人员的健康,使用了加热的人偶来代表居住者。这些包括两个坐姿的成年模型和一个站立的儿童模型,其表面温度约为32°C。坐姿的人偶高度为1380毫米,站立的人偶高度为1332毫米,以确保呼吸区的高度相似。如图6(a)和(b)所示,咳嗽的人偶被放置在区域4。受体1坐在区域7,面对咳嗽的人偶。受体2站立在区域12。背景噪音主要来源于持续的人类对话和空调系统的运行,以及通风橱、超声波清洗器、旋转蒸发器和强制空气干燥箱。平均背景噪音水平约为63分贝。香薰颗粒的粒径分布如图6(c)所示,主要集中在0.3–0.4微米的范围内。香薰被点燃在0.6米高的管子底部,通过泵从顶部抽取空气。一根连接到该排气管的管道被放置在咳嗽人偶的嘴边,以模拟咳嗽产生的颗粒排放。压缩空气被调整到特定水平,以确保咳嗽者的呼出速度约为4米/秒。这大致对应于文献中测量的咳嗽平均速度 [60]。每个测试持续10分钟,以模拟指数人频繁咳嗽的场景。因此,使用平均咳嗽速度而不是峰值速度。然而,在现实情况下,即使咳嗽频繁,颗粒排放也不是连续的。因此,该实验使用了一个简化的场景以获得初步测试结果。该实验设置也因为咳嗽期间的总颗粒排放量(大约0.4秒)太低,无法在房间内产生可检测的浓度。之前的研究在全规模的人与人之间的颗粒运输实验中也面临同样的挑战 [61][62]。使用了两个颗粒计数器(TSI AeroTrak Handheld Particle Counter 9306)来测量两个受体的呼吸区颗粒浓度。深度相机、麦克风传感器以及训练好的CNN和DNN模型检测咳嗽事件并定位咳嗽的人偶。一旦定位,配备空气净化器的机器人就会从起始点移动到咳嗽人偶的坐标。空气净化器的清洁空气输送率(CADR)被测量为124立方米/小时,空气流量为191立方米/小时。机器人车是WheelTec R550 MEC Plus,能够达到每秒0.5万亿次的操作,尺寸为0.4米长、0.4米宽、0.65米高,最大速度为1.2米/秒。机器人可以通过差速驱动进行原地旋转,为在狭小空间中提供高机动性。使用咳嗽定位方法和空气净化机器人,可以去除从咳嗽人偶呼出的颗粒,防止其扩散,实现近源空气净化或源头控制。在本实验中,空气净化机器人起始坐标为(561毫米,446毫米,620毫米)在区域3。机器人仅需几秒钟即可从起始点移动到咳嗽人偶的位置。所提出的方法的响应时间为150毫秒,可以视为实时。

### 讨论

在本研究中,有几个局限性需要仔细考虑和进一步研究。首先,在更复杂的室内环境中,需要更多的深度相机和麦克风传感器来确保全面的数据采集。深度相机的感知范围有限,当超出此范围时,准确度会下降甚至无法采集数据。此外,如果一个居住者被另一个遮挡在相机视野中,系统只能检测到前面的居住者并测量其深度。为了解决这些问题,必须部署多个深度相机以覆盖所有可能有居住者的区域,并提供不同的视角,从而防止居住者在捕捉图像中重叠。同样,在较大的空间中,需要更多的麦克风传感器来准确捕捉更多细分区域的音频数据。此外,深度相机和麦克风的放置也需要优化,以最大化效率并使用尽可能少的设备,从而降低成本。

其次,咳嗽只是空气传播传染病的几个指标之一。为了提高检测模型的鲁棒性,应使用更多的声音类型进行训练,如打喷嚏和其他呼吸道声音。这种更广泛的训练将使模型能够更准确地识别与传染病相关的各种症状,从而提高其整体有效性。此外,现实场景中可能涉及多个同时咳嗽的居住者,尤其是在医院等高风险环境中。因此,有必要开发更复杂的模型,以区分两个或多个咳嗽或打喷嚏的来源。这些改进将使系统能够保持准确的监测,并在多个指数人存在的情况下进行后续有效的感染控制。

第三,训练好的CNN和DNN模型在受控环境中进行了验证。房间声学的显著变化,如墙壁材料、家具和背景噪音,可能会改变性能。例如,本研究在背景噪音适中的室内环境中验证了所提出的方法。然而,在更复杂的声学环境中,背景噪音较高且波动,检测咳嗽声音将更具挑战性。此外,该方法在更大、更动态的环境中,具有更高的人口密度和重叠活动,其泛化能力尚未建立。因此,需要进一步研究以解决这些潜在问题。

最后,尽管应用结果表明咳嗽者定位模型的效果,但空气净化器可以进一步改进,因为它是商业产品,旨在实现全空间空气净化,而不是源头控制。更好的空气净化器设计可能类似于局部排气系统,配备高效过滤。这些方面值得进一步研究和改进。

### 结论

本研究开发了一种结合深度相机和麦克风传感器的方法,以检测咳嗽事件并定位咳嗽者,从而在室内环境中实现空气传播的源头控制。深度相机结合人类识别算法和深度感知技术,捕捉到室内环境中的居住者坐标。麦克风传感器采集音频样本,通过CNN-DNN检测模型检测咳嗽事件并识别咳嗽发生的位置。这种集成系统使得在室内环境中实现在线咳嗽者的识别成为可能。进行了两组验证实验以验证所提出的方法。最后,该方法被应用于实验室室内环境中,使用配备空气净化器的机器人进行人与人之间的颗粒运输源头控制。从本研究中可以得出以下结论:

1. 在验证实验中,基于深度相机和麦克风传感器的所提出方法成功识别了所有咳嗽事件,并准确定位了咳嗽者,误差在604毫米或以下。
2. 在实验室室内环境中进行人与人之间的颗粒运输演示实验中,与空气净化器关闭和固定空气净化器开启的案例相比,配备所提出咳嗽者识别和定位方法的空气净化机器人将受体暴露于呼出颗粒的减少幅度高达75.8%。

通过这些实验和分析,所提出的方法在室内环境中的实际应用价值得到了验证,特别是在减少空气传播感染风险方面。该方法为未来的感染控制技术提供了重要的基础和方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号