多模态传感辅助波束预测:基于ResNet-SE与PIformer的创新模型及其在真实场景下的性能提升
《Journal of Communications and Networks》:Multi-modal sensing-assisted beam prediction using real-world dataset
【字体:
大
中
小
】
时间:2025年11月27日
来源:Journal of Communications and Networks 3.2
编辑推荐:
本文针对毫米波通信系统中窄波束管理的高训练开销问题,提出了一种基于多模态传感数据(摄像头、LiDAR、雷达、GPS)的波束预测深度学习方法。研究人员设计了ResNet-SE(融合压缩激励网络)和PIformer(基于池化层与Inception混合模块的Transformer变体)两种新型结构,在DeepSense 6G数据集上实现了22%的预测精度提升和38%的训练时间缩减,为高速移动场景下的无线通信系统提供了高效可靠的波束管理方案。
在5G向6G演进的过程中,毫米波(mmWave)通信凭借其大带宽优势成为实现超高数据速率的关键技术。然而,毫米波系统依赖大规模天线阵列形成高增益窄波束,这一特性如同一把双刃剑:虽然能显著提升接收信号功率并减少干扰,但精确对准用户设备(UE)的波束却需要频繁的信道测量与复杂的训练过程。尤其在车辆通信(V2I、V2V)、无人机高速移动等动态场景下,传统的基于无线信号的波束管理方法面临巨大挑战,其训练开销大、响应速度慢,难以满足实时性要求。
为解决这一瓶颈,学术界开始探索“感知辅助通信”的新范式,即利用摄像头、激光雷达(LiDAR)、雷达、全球定位系统(GPS)等多模态传感器采集的环境信息来直接预测最优波束,从而绕过繁琐的信道估计过程。由Yerin Yeo、Junghyun Kim、Jihyung Kim和Junhwan Lee共同完成、发表于《Journal of Communications and Networks》的研究论文《Multi-Modal Sensing-assisted Beam Prediction using Real-World Dataset》正是这一领域的深入探索。该研究基于真实的DeepSense 6G数据集,提出了一种创新的深度学习模型,显著提升了波束预测的准确性与效率。
本研究主要采用了以下几项关键技术方法:首先,对多模态数据(包括昼夜图像、LiDAR点云、雷达信号、GPS位置)进行了针对性的预处理,如图像亮度增强、点云背景滤除、雷达距离-角度/距离-速度映射生成等。其次,设计了ResNet-SE模块,通过在ResNet中嵌入SE(Squeeze-and-Excitation)网络增强特征提取能力。核心创新在于提出了PIformer模块,该模块摒弃了传统Transformer的自注意力机制,采用池化层和Inception Mixer来高效捕获数据的低频与高频特征,并学习多模态间的关联。模型训练中采用了焦点损失(Focal Loss)处理数据不平衡问题,并使用了鲸形学习率调度器(Whale shaped learning rate)以优化收敛。
系统模型与问题表述
研究考虑了一个基站(BS)配备N根天线、用户设备(UE)为单天线的下行通信系统。系统采用预定义的波束成形码本? = {fm}m=1M。最优波束f的选择目标是最大化接收信号功率,即f = argmaxf∈? ||hHf||22,其中h为信道向量。本研究的目标是设计一个预测函数fΘ,仅利用传感器数据??来预测候选波束f?,使其逼近最优波束f的概率P(f? = f | ??)最大。
数据预处理
研究利用了DeepSense 6G数据集中的场景32(白天)和33(夜晚),涉及V2I通信。预处理包括将64维功率向量下采样至32维,并选取最大接收功率对应的波束索引作为标签。
- •摄像头数据:对夜间图像进行亮度增强,以提升模型在低光照条件下的鲁棒性。
- •LiDAR数据:通过移除背景建筑点云和进行鸟瞰图(BEV)视场校准,聚焦于移动车辆的相关数据,降低计算复杂度。
- •雷达数据:通过二维快速傅里叶变换(2D FFT)生成距离-角度图(HRA)和距离-速度图(HRV),并拼接作为最终输入YRadar = {HRA, HRV}。
- •GPS数据:计算BS与UE间的相对角度信息,并进行归一化和场景特异性校准。
提出的多模态波束预测模型
模型架构核心包括ResNet-SE块和PIformer块。
- •ResNet-SE块:对摄像头数据使用ResNet34-SE,对LiDAR和雷达数据使用ResNet18-SE。SE网络通过压缩(Squeeze)和激励(Excitation)操作重新校准通道权重,提升特征表示能力。
- •PIformer块:由8个子块构成,前两个子块使用池化层,后六个子块使用Inception Mixer。该设计避免了自注意力的高计算成本,能有效分离和融合数据的高低频成分。
多模态特征在经过ResNet-SE和PIformer块处理后,与GPS数据向量拼接并求和,最终通过一个多层感知机(MLP)预测最优波束索引。
实验与结果
模型训练使用AdamW优化器,结合焦点损失(γ=2)和鲸形学习率调度器,并采用指数移动平均(EMA)防止过拟合。
- •性能评估:以Top-K准确率和距离精度得分(DBA-score)为主要指标。在场景32和33中,所提模型的Top-1、Top-2、Top-3准确率均达到1.00,显著优于基线模型[5](场景32 Top-1: 0.52;场景33 Top-1: 0.32)。DBA-score也达到1.00,相比基线模型[5](平均0.82)提升约22%。
- •消融研究:分别测试仅使用ResNet-SE或仅使用PIformer的模型变体。结果表明,两者均能提升性能,但联合使用效果最佳,验证了各自架构改进的有效性。
- •模型复杂度:所提模型参数减少5%(74,472,152 vs. 78,422,528),训练时间减少38%(0.0237秒 vs. 0.0381秒),测试时间减少1.7%(0.0302秒 vs. 0.0363秒),体现了其高效性。
结论与讨论
该研究成功提出了一种基于多模态传感数据的波束预测深度学习模型。通过集成ResNet-SE和PIformer两大创新模块,模型在真实世界数据集上实现了预测精度和计算效率的同步提升。这不仅验证了利用环境感知信息辅助无线通信的可行性,也为未来6G网络中高速移动场景下的实时波束管理提供了切实可行的解决方案。模型的模块化设计使其能够灵活适配不同的传感器组合,具备良好的部署适应性。未来的研究方向包括扩展至更多样化的场景以进一步提升模型的泛化能力和鲁棒性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号