一种用于自动调制识别(Automatic Modulation Recognition, AMR)的轻量级多模态数据驱动方法(MFANet)

《IEEE Access》：A Lightweight Multimodal Data-Driven Method for Automatic Modulation Recognition

【字体：大中小】 时间：2026年06月10日 来源：IEEE Access 3.6

编辑推荐：

　　在低信噪比(Signal-to-Noise Ratio, SNR)条件下，自动调制识别(Automatic Modulation Recognition, AMR)仍具挑战性，因为判别性调制线索易被信道失真和噪声淹没。为解决该问题，研究人员提出了一种称为MFA

在低信噪比(Signal-to-Noise Ratio, SNR)条件下，自动调制识别(Automatic Modulation Recognition, AMR)仍具挑战性，因为判别性调制线索易被信道失真和噪声淹没。为解决该问题，研究人员提出了一种称为MFANet的轻量级多模态数据驱动融合网络用于AMR。该方法联合利用从接收波形直接导出的三种互补信号表征，包括原始同相/正交(In-phase/Quadrature, I/Q)采样、差分相位(Differential Phase)及短时傅里叶变换(Short-Time Fourier Transform, STFT)时频谱。具体而言，I/Q序列与差分相位拼接后由共享时序编码器编码以捕获局部时域动态及相位跳变模式，同时引入轻量级STFT编码器提取时频特征。所得特征通过软门控融合模块(Soft-Gated Fusion Module)自适应整合，并由由深度可分离残差增强(Depthwise-Separable Residual Enhancement)、双向门控循环单元(Bidirectional Gated Recurrent Unit, BiGRU)序列建模及基于Transformer的全局交互构成的轻量级骨干网进一步精炼。在RadioML2016.10a数据集上的实验表明，所提MFANet总体准确率达63.42%，峰值准确率达94.00%；在RadioML2016.10b数据集上总体准确率达62.87%，峰值准确率达93.33%。结果表明，该多模态数据驱动设计在低SNR条件下稳健识别性能、紧凑模型复杂度及单线程CPU端推理效率之间取得了良好平衡。

论文解读：《A Lightweight Multimodal Data-Driven Method for Automatic Modulation Recognition》（发表于IEEE Access）

一、研究背景与意义

传统基于似然法及人工特征提取的自动调制识别(Automatic Modulation Recognition, AMR)方法在低信噪比(Signal-to-Noise Ratio, SNR)下性能显著下降。现有深度学习方案虽有所改善，但仍面临低SNR下判别特征模糊、单一信号表征信息不足、模型复杂度过高难以边缘部署等问题。I/Q序列含完整波形信息但在强噪声下结构模糊；局部相位跳变和时频演化特征未在轻量级网络中充分联合利用。为此，研究人员提出MFANet（Multimodal Fusion Network for AMR），通过多模态互补表征与轻量融合架构提升低SNR下的调制判别力与实用性，在RadioML2016.10a及2016.10b标准数据集验证有效性。

二、主要关键技术方法

研究人员采用RadioML2016.10a（11类调制，SNR ?20~18 dB）与RadioML2016.10b（10类调制）公开数据集，按7:1.5:1.5分层随机划分。预处理含RMS功率归一化、差分相位计算（atan2相邻差分+wrap至(?π,π] + 样本级标准化）、STFT（Hann窗长32，FFT点数为32，跳距8，log(1+|STFT|)压缩）生成双通道I/Q时频谱(2×17×13)。网络输入为拼接的I/Q与差分相位构成三通道时序输入(3×128)及STFT双通道时频图(2×17×13)。前端含共享1D卷积时序编码器与轻量2D卷积+深度可分离卷积+通道注意力(Channel Attention)的STFT编码器，特征对齐后经软门控融合（全局平均池化Global Average Pooling, GAP + MLP生成α_t, α_f）。融合特征经深度可分离残差增强、BiGRU双向序列建模、Token展开(17×13=221 tokens)后经多头自注意力Multi-Head Self-Attention (Transformer)全局交互，最后GAP+Dropout+全连接分类。训练用AdamW优化器、交叉熵损失、余弦退火学习率(初始0.0018)、早停、轻量数据增强（频偏±0.05、相位扰动、幅度扰动、加性噪声、随机伸缩[0.97,1.03]、时移≤4样点，仅训练集），五次独立随机种子取均值。

三、研究结果

SECTION I. Introduction（引言）

研究人员综述AMR发展及现存低SNR挑战，明确需设计紧凑网络联合利用时域波形、局部相位动态和时频结构，引出MFANet设计动机与三大贡献：多模态表征引入I/Q+差分相位+STFT、轻量双分支自适应融合、轻量分层上下文建模骨干(仅0.127M参数)。

SECTION II. Signal Model and Feature Design（信号模型与特征设计）

II-A 给出复基带接收信号模型r_k(t)= (s_k(t)?h(t)) e^{j(2πΔf t+?₀)}+ n(t)，离散化为r[n]=I[n]+jQ[n]，N=128，经单位平均功率RMS归一化消除功率波动影响。

II-B 构建三模态：(1) I/Q时域表征——取归一化复信号的实部与虚部构成2×128序列；(2) STFT时频表征——分别对I/Q做STFT取对数幅值谱得2×17×13；(3) 差分相位(Differential Phase)表征——瞬时相位?[n]=atan2(Q[n],I[n])，相邻差分Δ?[n]=wrap(?[n]??[n?1])，末位补零保持长度128，再作样本内标准化。I/Q与差分相位拼接为3×128送入时序分支。

SECTION III. MFANet Architecture（MFANet网络架构）

III-A 多模态前端编码与自适应融合(Adaptive Fusion Module)：时序输入X_t=Concat(X_I/Q, X?_Δ?)∈?^B×3×128经两层1D Conv共享编码投影至与STFT分支同尺寸特征图F_t, F_f∈?^B×C×17×13。融合权重[α_t, α_f]=Softmax(Φ(GAP(Concat(F_t,F_f))))，融合特征F_d=(α_tF_t+α_fF_f)/(α_t+α_f+ε)，后接轻量混合与空间细化。

III-B 轻量级分层上下文建模(Lightweight Hierarchical Context Modeling)：F_d依次经(a)深度可分离残差增强模块(Residual Enhancement)强化局部结构；(b)重排为序列入双向门控循环单元(BiGRU)捕获双向时序依赖；(c)展平为221个C维Token入Transformer(多头自注意力+前馈+残差)捕获全局非局部关系。整体表示为F_b=T(G(R(F_d)))。

III-C 分类头与训练目标：GAP压缩F_b→Dropout→FC→Softmax；交叉熵损失训练。

SECTION IV. Experimental Simulation and Analysis（实验仿真与分析）

IV-A RadioML2016.10a对比实验：MFANet总体准确率63.42%、峰值94.00%、2 dB处92.2%、低SNR(≤?8 dB)平均18.2%，优于CNN-LSTM、CLDNN、ResNet、MCLDNN、MFF等基线；参数量仅0.127M，FLOPs 38.220M。配对t检验p<0.001证实提升具统计显著性。

IV-B 混淆矩阵分析：2 dB时MFANet对角优势更强，高阶QAM互混降低(?8 dB时AM-DSB、AM-SSB、QAM64识别率显著提升)；WBFM因与AM-DSB特征模糊仍难分，属数据集固有弱调制特性限制。

IV-C 泛化与CPU推理效率：(1) RadioML2016.10b上总体准确率62.87%、峰值93.33%、0 dB达89.74%、低SNR均18.42%，证明跨数据集泛化性；(2) 单线程CPU(batch=1)平均延迟4.31 ms/样本(中位4.17 ms，P95≈5.13 ms)，吞吐约232样本/秒，适合嵌入式在线分类。

IV-D 消融实验(Ablation Study)：去除差分相位总体降至62.64%，去STFT降至62.83%；去BiGRU降至62.33%，去Transformer降至61.88%（最低），证明各模态与模块协同贡献，其中Transformer全局交互增益最大。

SECTION V. Conclusion（结论）

研究人员提出MFANet，联合I/Q、差分相位及STFT Spectrogram，通过软门控融合、BiGRU序列建模与Transformer全局交互实现低SNR下高精度轻量AMR。RadioML2016.10a总体准确率63.42%/峰值94.00%，RadioML2016.10b总体62.87%/峰值93.33%，CPU单线程延迟4.31 ms，参数量0.127M，FLOPs 38.220M，在识别性能、模型紧凑度与CPU端推理效率间取得良好平衡。未来将探索标签噪声鲁棒性、持续学习与少样本跨域识别及模拟调制专属增强以改善WBFM识别。

四、讨论与结论翻译

本文提出MFANet——一种面向低SNR条件的轻量级多模态数据驱动融合网络用于自动调制识别。该方法通过联合利用I/Q采样、差分相位和STFT时频谱，结合时域、相位及时频信息。采用软门控融合、基于BiGRU的序列建模及基于Transformer的全局交互以增强噪声条件下的特征表示。RadioML2016.10a实验显示MFANet总体准确率为63.42%，峰值准确率为94.00%。RadioML2016.10b附加实验显示MFANet总体准确率为62.87%，峰值准确率为93.33%，表明MFANet在更大数据集上保持有效识别性能。此外，纯CPU单线程推理评估显示MFANet在仅0.127M参数和38.220M FLOPs下平均每样本延迟4.31 ms。结果表明所提方法在识别准确率、模型紧凑度及评估的单线程CPU设置下推理效率之间提供了良好平衡。

热点排行