MESA：基于Transformer的冷启动序列推荐插件元调制方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Knowledge Discovery from Data》：MESA: Plugin Meta-Modulation for Transformer-Based Cold-Start Sequential Recommendation

【字体：大中小】 时间：2026年02月16日 来源：ACM Transactions on Knowledge Discovery from Data

编辑推荐：

　　本文综述了MESA（插件元调制）方法，该方案旨在解决Transformer架构在冷启动序列推荐（Cold-Start Sequential Recommendation）场景下面临的挑战。文章通过设计一种元调制（Meta-Modulation）插件模块，直接调制Transformer序列编码器（Sequence Encoder）的参数，并结合混合专家（Mixture of Experts, MoE）机制来捕捉用户的多重兴趣，显著提升了模型在数据稀缺情况下的自适应（Adaptive）能力和个性化推荐效果。

引言

序列推荐系统致力于通过分析用户的历史交互序列来挖掘其偏好。与传统推荐系统关注静态兴趣不同，序列推荐系统专注于识别和预测用户偏好随时间的变化模式。尽管Transformer模型因其强大的序列处理能力在该领域取得了卓越成果，但其性能通常依赖于大量的历史数据。在冷启动（cold-start） 场景下，用户只有简短的交互序列可用，模型的性能会因上下文信息不足而显著下降。因此，增强序列编码器的自适应（adaptive）能力至关重要，它使模型即使面对高度相似的输入序列，也能提取出用户偏好的细微差异。如文档中图片所示，一个具备自适应能力的编码器能够从两个相似的“文化”书籍序列中，分别识别出“旅行”和“历史”的具体兴趣，从而提供更个性化的推荐，而非通用的文化类书籍。

现有方法及其局限

为应对冷启动问题，已有研究将元学习（Meta-Learning） 引入序列推荐，旨在提升模型的少样本学习能力。例如，模型无关元学习（Model-Agnostic Meta-Learning, MAML） 框架通过参数的元初始化实现快速适应。然而，这些现有方法在增强基于Transformer的推荐器时存在局限：基于MAML的模型难以适应Transformer的大量参数；而基于转移（transition-based） 和度量（metric-based） 的元学习模型依赖于独特的架构，无法与Transformer框架兼容。此外，它们通常缺乏识别和满足短序列中多重兴趣的机制。

MESA方法的核心创新

为解决上述挑战，研究者提出了MESA（Plugin Meta-Modulation for Transformer-Based Cold-Start Sequential Recommendation），一个轻量级的插件模块。其核心架构主要包括三个部分：调制矩阵生成器、调制网络和基础模型。

首先，多专家调制矩阵生成器利用基于图卷积网络（Graph Convolutional Network, GCN） 的特征提取和混合专家（Mixture of Experts, MoE） 机制生成针对每个用户的调制矩阵。其中，GCN（采用LightGCN）从用户-项目交互图中提取深层特征，而MoE通过多个专家网络和门控网络来捕捉用户多样化的兴趣。为防止训练中专家利用不平衡，还引入了专家利用平衡器作为辅助损失。

其次，调制网络采用元学习思想，利用生成的调制矩阵自适应地调整基础Transformer块中的参数。研究者设计了两种调制器：缩放调制器（Scaling Modulator） 通过哈达玛积调整嵌入向量的尺度；平移调制器（Shifting Modulator） 则通过添加用户特定的偏置来增强嵌入的稳定性。调制主要作用于自注意力机制中的查询（Query）向量，以个性化序列中项目之间的关联。

最后，MESA被设计为一个插件模块，可以灵活地集成到各种基于Transformer的基础序列推荐模型中，包括标准的Transformer（如SASRec）、双向Transformer（如BERT4Rec）和局部约束Transformer（如Locker），而无需对基础模型进行重大修改。

实验与结果

研究在三个真实世界数据集（MovieLens-1M， Dbook， Diginetica）上进行了实验，将MESA应用于多个基础模型（SASRec， BERT4Rec， Locker），并与现有序列推荐器和元学习推荐器进行了比较。评估指标包括命中率（Hit Ratio, Hit@K） 和归一化折损累计增益（Normalized Discounted Cumulative Gain, NDCG@K）。

实验结果表明，MESA能有效提升基础模型在冷启动场景下的性能。以SASRec为基础模型时，应用MESA（特别是平移调制器版本）在Dbook数据集上实现了高达9.84%的Hit@5提升和10.62%的NDCG@5提升。相比于专门的元学习方法（如MeLU， TaNP， MetaTL），MESA也展现出了更具竞争力的效果。此外，详细的消融研究（Ablation Study） 证实了MoE机制、GCN特征提取以及专家平衡损失各自的有效性。对调制矩阵的可视化分析进一步揭示了MESA能够学习到有区分度的用户表示。

复杂度分析

在空间复杂度上，MESA引入了额外的O(Bd_md_k²)参数（B为Transformer块数，d_m为调制矩阵生成器的隐藏维度，d_k为隐藏维度），这与基础模型已有的O(Bd_k²)参数处于同一量级。在时间复杂度上，额外的计算成本主要为O(Bd_md_k²)，远低于基础Transformer自注意力机制的O(BL²d_k)成本（L为序列长度）。因此，MESA在实现自适应个性化的同时，保持了与基础模型可比的复杂度。

结论

本文提出的MESA方法，通过创新的元调制机制和混合专家架构，成功解决了Transformer模型在冷启动序列推荐中的适应性和多重兴趣识别难题。其插件式的设计确保了广泛的适用性和部署的便捷性。实验充分验证了MESA在提升推荐质量方面的有效性，为未来冷启动推荐系统的研究提供了一个强有力的新工具。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号