网络结构数据的功能回归模型创新与保形预测应用
【字体:
大
中
小
】
时间:2025年10月11日
来源:Environmetrics 1.7
编辑推荐:
本文综述了网络加权功能回归(NWFR)模型的创新进展,该模型将空间加权功能回归(SWFR)扩展至网络结构数据,并开发了功能保形预测(CP)方法以提供分布自由的预测区间。研究表明,显式建模网络结构能显著提升点预测精度,并增强预测区间的有效性和精确性,为复杂依赖关系下的功能数据分析提供了强有力的工具。
功能数据分析(FDA)领域近年来面临处理具有复杂依赖关系数据的挑战,这类数据被称为第二代功能数据,它们超越了传统功能数据的独立性假设,涵盖了多变量、纵向、空间、网络或时间序列数据。本文聚焦于在网络依赖环境下的功能数据建模问题,其核心挑战在于网络数据分析与功能数据分析的交叉领域。
通信网络数据详细描述了个体或设备在网络中的连接和交互方式。当我们将随时间变化的信号信息视为功能数据,并将通信网络数据表示为图时,就构成了网络上的功能数据。具体而言,设G为一个无向静态图,其中V是顶点(或节点)集合,E是连接顶点对的边(或链接)集合。每个顶点v由一组功能数据描述,其中T代表功能数据的时间或索引域。图中顶点之间的功能数据可能受到相邻顶点数据的影响,这种依赖关系的强度由图的拓扑结构决定,通常通过顶点对之间的测地线距离来捕捉。在加权图中,最短路径由沿连接路径的边权重函数的最小化决定。测地线距离的定义是后续功能回归模型的基础。
经典的并发功能回归模型用于描述响应变量Y与一组功能协变量X之间的关系。该模型假设观测值独立。本文提出的NWFR模型将此模型扩展至数据在网络结构(如传感器网络)上观测的情形。该模型引入了一个权重矩阵W来纳入网络结构,其中元素wij反映了顶点i和j在网络中的邻近性。NWFR模型为每个顶点估计一个加权的并发回归模型,其中每个节点的估计受其邻居影响。权重矩阵基于高斯递减距离核函数定义,该函数依赖于顶点间的测地线距离。模型参数的估计通过基展开方法实现,将曲线表示为基函数的线性组合。理论分析给出了模型参数的解。当权重矩阵为单位矩阵时,所有顶点被平等加权,网络结构不影响模型,此时顶点模型退化为标准并发功能回归模型。
为了评估模型的拟合优度,本文提出了使用均方根积分误差(RIMSE)及其功能变体,以及点状R2指数和其积分IR2。为了检验网络结构对系数变异性的影响,进行了基于积分方差的检验。零假设是系数在网络中是稳定的。通过计算统计量V(β)来评估系数在不同节点间的变异性,并使用蒙特卡洛置换检验来评估网络结构是否对系数的变异性有显著影响。
保形预测(CP)是一个通用的、模型独立的框架,用于生成具有覆盖保证的预测区间。在功能数据设置中,CP被扩展用于功能响应,使用基于校准集的非共形性得分。然而,标准的CP依赖于可交换性假设,这在具有复杂依赖关系的空间过程或网络结构中常常被违背。近期研究将CP扩展至适应结构化依赖,包括空间和网络设置。本文利用网络感知采样和分层技术,将CP框架扩展至由图顶点索引的功能数据。该方法通过将图的依赖结构嵌入CP过程,构建了分布自由的、有限样本有效的预测带。
预测未观测节点处的整个功能响应面临两个核心挑战:不确定性必须在函数的整个域上均匀量化,以及由于图拓扑引起的依赖关系通常违背可交换性假设。本文通过网络感知分层来恢复近似可交换性,从而构建有效的预测带。预测带的构造涉及数据分区、模型训练、调制函数定义、非共形性度量以及预测带构建几个步骤。非共形性度量可以选择L2范数(平均平方误差)或上确界范数(最大误差)。L2范数在鲁棒性和灵敏度之间提供了平衡,并且便于理论分析。
CP方法的性能评估通常涉及评估预测区间的有效性和效率。本文使用全局经验覆盖指数Cglob、局部覆盖指数Cloc、平均带宽(ABW)和功能版本的区间得分(IS)等指标。Cglob衡量观测曲线完全包含在预测带中的比例,Cloc量化函数域中满足覆盖条件的比例。ABW是效率的度量,而IS同时奖励高覆盖和窄区间。这些指标反映了CP中众所周知的覆盖-效率权衡。
模拟研究在一个由四个相互连接的社区组成的合成网络结构上进行,使用随机块模型生成。研究了边缘权重(EW)、社区顺序(OC)和社区间连通性(CBC)等关键参数的不同配置。功能属性使用包含功能协变量、系数和误差项的模型生成。结果表明,NWFR模型在拟合优度方面明显优于经典功能回归模型,特别是在解释变异性和减少误差方面。保形预测的结果显示,NWFR模型在大多数情况下实现了更好的覆盖(通常超过95%),尽管以更宽的预测带为代价。结果突出了保形预测中覆盖与效率的权衡。
将NWFR模型应用于英特尔室内数据集,该数据集包含英特尔伯克利研究实验室中54个传感器收集的微气候读数。研究目标是评估NWFR模型在通过研究温度和光照对相对湿度的影响来预测实验室微气候变化方面的性能。网络顶点代表传感器,边权重基于传感器之间信号接收的概率定义。将NWFR模型与仅依赖传感器空间位置的地理加权功能回归(GWFR)模型进行比较。结果表明,GWFR和NWFR模型都实现了接近完美的R2和IR2值以及非常低的RIMSE值。置换测试表明,网络结构对温度系数有显著影响。保形预测评估显示,GWFR和NWFR模型通常比经典模型提供更好的覆盖,尤其是当使用上确界范数非共形性度量时。效率相关指标表明,L2范数度量通常能产生更高效的预测区间。
本文提出的网络加权功能回归(NWFR)模型通过结合基于底层图拓扑的加权方案,扩展了经典功能回归框架,能够对网络观测中的复杂依赖关系进行建模,从而提高了预测性能并增强了可解释性。为量化不确定性而开发的功能保形预测程序提供了具有保证覆盖性的预测带。模拟和实际应用表明,显式考虑网络结构能在预测精度和预测区间有效性方面带来显著增益。未来的研究方向包括整合更多网络特征、优化功能数据的非共形性度量以及将NWFR框架应用于其他具有复杂网络依赖的领域。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号