《IEEE Open Journal of Antennas and Propagation》:Machine-Learning-Based Urban Path Loss Prediction at 900 MHz: Principal Component Analysis, Clustering, Feature Importance and Regression
编辑推荐:
针对传统经验模型在复杂城区精度骤降难题,José Lorente-López等利用900MHz实测2490点数据,融合地籍图与数字地表模型(DSM)构建横断面描述符,结合PCA降维与k-means聚类划分4种传播场景,再以GB、kNN、NN、SVM回归预测路径损耗。结果显示GB在各簇稳健性最佳,kNN全局误差最低(RMSE=3.20dB,MAPE=2.7%),并揭示距离、末端自由距离、平均自由距离为关键预测因子,为5G/B5G网络规划提供可解释、低成本的机器学习范式。
Cartagena的秋日午后,一辆搭载接收机的自行车缓缓驶过西班牙东南部的大学城。900MHz连续波信号从10m高阳台上的发射机送出,却在错综排布的白色楼群间被切割、反射、衍射,最终化作接收屏幕上一串起伏不定的功率读数。这一幕,每天都在全球各大城市上演:传统Okumura-Hata、COST-231等经验公式把建筑密度、街谷效应简化为“中等城市”“郊区”几个标签,当面对屋顶高度不一、街道宽窄交错的“非标准”城区时,预测误差动辄20-30dB,足以让5G小区边缘用户从“高清直播”瞬间跌入“转圈缓冲”。如何以可负担的计算成本,把“每一栋楼、最后十米空地”都纳入路径损耗(Path Loss,PL)模型,成为无线网络精细化部署的燃眉之急。
José Lorente-López带领的跨校团队决定用“数据+算法”给出新答案。他们在卡塔赫纳理工大学校园及周边街区采集2490个实测点,利用西班牙国家地理中心2.5m分辨率数字地表模型(DSM)与地籍楼块矢量,自动提取每条收发射线的垂直剖面,得到“总距离”“相交楼数”“末端自由距离”等11项几何特征;随后以主成分分析(PCA)揭示变量间协方差结构,再用k-means把数据划分为4个传播“场景簇”,最终训练梯度提升(GB)、k最近邻(kNN)、神经网络(NN)及支持向量机(SVM)四种回归器,实现簇特异与全局双轨预测,并通过置换特征重要性(Permutation Feature Importance)解析“不同城区究竟什么在偷走信号”。
技术路线概括如下:
实测数据采集——900MHz连续波,GPS同步,1s采样,共2490有效点;
地物特征工程——QGIS+Python沿LoS剖切DSM,输出11维几何描述符;
无监督场景划分——PCA降维→k-means聚类,Silhouette评分优选K=4;
监督回归——5折交叉验证+Optuna超参优化,评估RMSE、MAPE、R2;
可解释性——置换重要性逐簇量化特征贡献。
研究结果按原文小标题依次呈现:
A. 数据采集
实测PL随距离呈三段式上升:0-200m快速衰减50-80dB;200-600m平稳在80-100dB;>600m因高楼或地形遮挡再度攀升至110dB以上,为后续聚类提供直观依据。
B. 主成分分析
PC1解释87.6%方差,载荷99%来自“总距离”;PC2解释7.15%方差,94%由“末端自由距离”驱动。说明宏观上“多远”决定损耗基数,而“接收前最后一小段空场”决定残余波动。
C. 聚类
k-means将样本分为:
C1(绿,LoS)——短距、无遮挡,PL中位~62dB;
C2(蓝,低遮挡)——中距、屋顶断续,PL中位~87dB;
C3(橙,均匀遮挡)——中远距、街谷重复,PL集中93-98dB;
C4(红,高遮挡)——长距+多障碍,PL>100dB且离散度最大。
ANOVA证实四簇在距离、相交楼数、末端自由距离上差异显著(p<0.001)。
D. 机器学习回归与特征重要性
簇内验证:
• C1样本最少(248),SVM获最低RMSE=5.2dB;
• C2数据最多(1170),GB与kNN RMSE均≈3.0dB;
• C3环境稳定(610),GB以RMSE=2.0dB、MAPE=1.6%领跑;
• C4遮挡最重(462),GB再次最优(RMSE=1.7dB,MAPE=1.2%)。
全局验证:kNN以RMSE=3.20dB、MAPE=2.7%、R2=0.951综合成绩第一;GB紧随其后,NN误差最高。
特征重要性显示:
C2靠“总距离”;C3由“末端自由距离”主导;C4则“平均自由距离”最关键,反映深遮挡区需多段连续空隙方能“挽救”信号。
结论与讨论
研究首次把官方地籍/DSM剖面特征无缝嵌入城市900MHz PL预测流程,证明:
距离仍是主变量,但“末端自由距离”“平均自由距离”可解释残余方差,物理意义清晰;
聚类-aware模型在遮挡场景把误差压至1.7-2.0dB,优于传统经验公式(Okumura-Hata RMSE=26.96dB)一个数量级;
GB在异构城区稳健性最好,若运营无法在线分簇,可直接采用标准化输入的distance-weighted kNN作为轻量级 baseline;
整套流程无需射线追踪或街景照片,仅需公开DSM与楼块数据,即可复现到任何欧洲城市。
随着5G/B5G小基站密集入网,该框架为网络规划工具提供了“测一堆、算一片”的新范式:先以PCA+聚类自动发现城市传播“性格”,再用可解释ML精准预测并指导站址、天线挂高与功率配置,显著降低路测成本与碳排。未来若融合多频段、多城市场景及深度学习不确定性估计,有望把“最后一百米”的覆盖盲区也装进算法口袋,让城市通信网真正做到“算得清、铺得准、用得省”。