人们通常每天会花费两到四个小时进行户外活动[1]。然而,日益严重的城市热岛效应(UHI)对城市开放空间的居民健康构成了挑战。热浪期间的高温不仅增加了脱水和中暑等生理风险,还导致死亡率上升,在美国城市中死亡率增加了5.7%[2]。亚洲城市也观察到了类似的趋势,每升高1°C,死亡率增加4.1-5.8%[3]。加剧的热岛效应导致过热和大量出汗,从而产生强烈的皮肤湿润感。湿度感知与温度一起,是决定整体人类舒适度的关键因素[4,5]。因此,准确描述户外舒适度,包括热感和湿度感,是一项关键任务。
以往的研究主要依赖问卷来量化这种主观体验[6,8]。虽然问卷对于标准化数据有效,但存在主观性和潜在偏差等明显局限[9]。在炎热潮湿且出汗较多的条件下,这种方法往往无法区分热感(热/冷)和湿度感(湿/干)。
为了克服主观问卷中的偏差[10],可穿戴传感器提供了客观的实时生理数据。许多研究已在受控的室内环境中证明了这种方法的有效性[11,12]。这些生理信号包括神经反应(例如EEG)、心血管指标(例如ECG、心率变异性)和呼吸参数。其中,神经指标已被证明很有价值。例如,Mansi等人报告称,在温暖环境下脑电图(EEG)中的α波会增加,而在寒冷环境下β波功率会增加[11]。Jiao等人通过RF模型分析得出结论,α波和θ波是炎热潮湿室内环境中热舒适度的关键预测因子[6]。同样,心血管反应也提供了补充信息:心率变异性(HRV)得出的LF/HF比率是这种反应的关键指标。它衡量了身体的应激反应(交感神经活动)与放松反应(副交感神经活动)之间的平衡。Zhu等人观察到,在温度不适的环境中LF/HF比率较高,相对湿度进一步影响了LF/HF比率[13]。Hu等人显示室内热感知投票(TSV)与生理指标(如HR和血氧饱和度)之间存在强相关性[14]。同样,心电图(ECG)信号也在受控湿度条件下被使用[15]。然而,这些研究主要集中在室内热/湿度舒适度上。最近,研究扩展到了户外环境。例如,Zhao等人基于问卷调查开发了一个区域特定的舒适度模型[7],而Zhu等人进一步证明生理参数(如HRV和皮肤温度)可以有效预测户外热舒适度[16]。然而,这些开创性的户外研究要么依赖于主观投票[7],要么仅限于单一的青年群体[16]。因此,基于生理信号的户外舒适度预测仍受到缺乏涵盖不同年龄组的全面数据集的阻碍。
招募大量参与者进行深入的生理现场研究是一个公认的方法学挑战,因此评估研究结果的稳健性至关重要[3,14]。为此,可以使用基于统计功效和效应大小的标准来确定所需的最低样本量,Lan等人通过使用G*Power软件展示了这一点[17]。为了进一步探讨样本量对结果稳健性的影响,最近使用了蒙特卡洛模拟等方法来定量评估有限样本量对统计结果的影响[18]。
先前的室内研究表明,老年人在生理参数上与年轻人有显著差异。Larose等人报告称,老年人在干燥和潮湿条件下运动后的体温调节能力下降[4]。Sunwoo等人发现老年男性对低相对湿度(RH)比年轻男性更敏感[5]。Jung等人观察到老年人的温度感受器敏感度较低[19]。相比之下,户外热舒适度研究很少考虑年龄差异[7,16],或者仅仅考虑老年人的年龄分布。例如,Ma等人研究了老年人在户外条件下的热舒适度与脑电图(EEG)之间的联系[20]。有必要建立一个涵盖不同年龄组和城市环境的户外热舒适度数据集。
即使有了这样的数据集,仍然存在挑战。舒适度模型依赖于生理评估以及气候背景、社会政治经济因素和热预期[9]。传统的线性分析难以准确分析多种因素的综合影响。鉴于各种参数的复杂性、非线性和个体差异,机器学习(ML)作为一种强大的工具应运而生[21, [22], [23],它可以整合多种数据流以更准确地预测人类舒适度。
为了建立一个预测模型,需要定义模型的输入和输出功能。Shooshtarian的综述指出,传统的舒适度模型经常忽略气候背景、社会经济因素和热预期,因此无法捕捉所有影响因素[9]。Wan等人根据气象、地形和景观变量预测户外舒适度,忽略了生理因素[24]。值得注意的是,上述大多数预测使用TCV或热舒适度投票(TCV)作为预测输出[21], [22], [23], [24]]。在夏季炎热潮湿的户外条件下,湿度不容忽视,需要用湿度感知投票(HSV)或湿度舒适度投票(HCV)来补充预测。因此,进一步选择获取的户外微环境参数、生理参数和主观投票参数是必要的。
还需要选择合适的机器学习模型。近年来,反向传播神经网络(NN)、K最近邻算法(KNN)、随机森林(RF)和支持向量机(SVM)等方法已被用于热舒适度预测[21], [22], [23]]。Alam等人比较了多种算法在预测个体热舒适度方面的表现,发现RF的准确率最高[21]。Chai等人使用人工神经网络(ANN)和SVM预测TCV和TSV[22]。Wan等人利用NN模型建立了满足人类热舒适度要求的通风系统优化模型[24]。经过综合考虑,选择NN、RF和SVM作为本研究的三种算法。
此外,调整ML参数[25]对于不同预测目标的预测准确性非常重要。以往的研究通常使用手动调整或穷举网格搜索方法,但这些方法要么需要高水平的专业知识,要么算法效率相对较低[26]。Wu等人[26]证明,贝叶斯优化(BO)显著减少了参数优化时间,同时实现了可比的准确率并减少了计算成本。此外,以往关于热舒适度的研究经常面临不同投票类别样本量不均衡的问题[22]。Swana等人发现,不平衡的数据集会导致个别类别的预测准确性降低[27]。SMOTE-Tomek混合采样方法可以提高不平衡数据集中的模型性能[27,28]。然而,贝叶斯优化在参数调整和SMOTE-Tomek混合采样方法在户外热舒适度和湿度感知预测中的应用和效果仍需进一步探索。
为了解决上述研究空白,本研究结合了现场测量和机器学习技术。鉴于夏季城市热岛效应最为严重,在北京朝阳区典型的建筑区域、公园和交通路口进行了为期12天的实验活动。在此期间,持续监测了户外微气候参数。从6名年轻人和6名老年人那里收集了全面的问卷数据和生理参数。比较评估了三种机器学习算法NN、RF和SVM的预测性能。然后选择准确率最高的模型,并使用贝叶斯优化和混合采样方法进行了进一步优化。本研究的主要目标是:(1)研究不同户外微气候下生理参数的变化模式,并确定可以用来预测户外热舒适度和湿度感知的参数;(2)探讨年轻人和老年人在投票结果方面的生理差异,以及在这些差异是否可以忽略的情况下建立预测模型;(3)选择最合适的机器学习算法,并全面评估其模型在预测户外热舒适度和湿度感知方面的性能;(4)使用事后功效分析和蒙特卡洛模拟定量评估样本量对统计推断和机器学习性能的影响。