MESA:基于Transformer的冷启动序列推荐插件元调制方法

《ACM Transactions on Knowledge Discovery from Data》:MESA: Plugin Meta-Modulation for Transformer-Based Cold-Start Sequential Recommendation

【字体: 时间:2026年02月16日 来源:ACM Transactions on Knowledge Discovery from Data

编辑推荐:

  本文综述了MESA(插件元调制)方法,该方案旨在解决Transformer架构在冷启动序列推荐(Cold-Start Sequential Recommendation)场景下面临的挑战。文章通过设计一种元调制(Meta-Modulation)插件模块,直接调制Transformer序列编码器(Sequence Encoder)的参数,并结合混合专家(Mixture of Experts, MoE)机制来捕捉用户的多重兴趣,显著提升了模型在数据稀缺情况下的自适应(Adaptive)能力和个性化推荐效果。

  
引言
序列推荐系统致力于通过分析用户的历史交互序列来挖掘其偏好。与传统推荐系统关注静态兴趣不同,序列推荐系统专注于识别和预测用户偏好随时间的变化模式。尽管Transformer模型因其强大的序列处理能力在该领域取得了卓越成果,但其性能通常依赖于大量的历史数据。在冷启动(cold-start) 场景下,用户只有简短的交互序列可用,模型的性能会因上下文信息不足而显著下降。因此,增强序列编码器的自适应(adaptive)能力至关重要,它使模型即使面对高度相似的输入序列,也能提取出用户偏好的细微差异。如文档中图片所示,一个具备自适应能力的编码器能够从两个相似的“文化”书籍序列中,分别识别出“旅行”和“历史”的具体兴趣,从而提供更个性化的推荐,而非通用的文化类书籍。
现有方法及其局限
为应对冷启动问题,已有研究将元学习(Meta-Learning) 引入序列推荐,旨在提升模型的少样本学习能力。例如,模型无关元学习(Model-Agnostic Meta-Learning, MAML) 框架通过参数的元初始化实现快速适应。然而,这些现有方法在增强基于Transformer的推荐器时存在局限:基于MAML的模型难以适应Transformer的大量参数;而基于转移(transition-based)度量(metric-based) 的元学习模型依赖于独特的架构,无法与Transformer框架兼容。此外,它们通常缺乏识别和满足短序列中多重兴趣的机制。
MESA方法的核心创新
为解决上述挑战,研究者提出了MESA(Plugin Meta-Modulation for Transformer-Based Cold-Start Sequential Recommendation),一个轻量级的插件模块。其核心架构主要包括三个部分:调制矩阵生成器、调制网络和基础模型。
首先,多专家调制矩阵生成器利用基于图卷积网络(Graph Convolutional Network, GCN) 的特征提取和混合专家(Mixture of Experts, MoE) 机制生成针对每个用户的调制矩阵。其中,GCN(采用LightGCN)从用户-项目交互图中提取深层特征,而MoE通过多个专家网络和门控网络来捕捉用户多样化的兴趣。为防止训练中专家利用不平衡,还引入了专家利用平衡器作为辅助损失。
其次,调制网络采用元学习思想,利用生成的调制矩阵自适应地调整基础Transformer块中的参数。研究者设计了两种调制器:缩放调制器(Scaling Modulator) 通过哈达玛积调整嵌入向量的尺度;平移调制器(Shifting Modulator) 则通过添加用户特定的偏置来增强嵌入的稳定性。调制主要作用于自注意力机制中的查询(Query)向量,以个性化序列中项目之间的关联。
最后,MESA被设计为一个插件模块,可以灵活地集成到各种基于Transformer的基础序列推荐模型中,包括标准的Transformer(如SASRec)、双向Transformer(如BERT4Rec)和局部约束Transformer(如Locker),而无需对基础模型进行重大修改。
实验与结果
研究在三个真实世界数据集(MovieLens-1M, Dbook, Diginetica)上进行了实验,将MESA应用于多个基础模型(SASRec, BERT4Rec, Locker),并与现有序列推荐器和元学习推荐器进行了比较。评估指标包括命中率(Hit Ratio, Hit@K)归一化折损累计增益(Normalized Discounted Cumulative Gain, NDCG@K)
实验结果表明,MESA能有效提升基础模型在冷启动场景下的性能。以SASRec为基础模型时,应用MESA(特别是平移调制器版本)在Dbook数据集上实现了高达9.84%的Hit@5提升和10.62%的NDCG@5提升。相比于专门的元学习方法(如MeLU, TaNP, MetaTL),MESA也展现出了更具竞争力的效果。此外,详细的消融研究(Ablation Study) 证实了MoE机制、GCN特征提取以及专家平衡损失各自的有效性。对调制矩阵的可视化分析进一步揭示了MESA能够学习到有区分度的用户表示。
复杂度分析
在空间复杂度上,MESA引入了额外的O(Bdmdk2)参数(B为Transformer块数,dm为调制矩阵生成器的隐藏维度,dk为隐藏维度),这与基础模型已有的O(Bdk2)参数处于同一量级。在时间复杂度上,额外的计算成本主要为O(Bdmdk2),远低于基础Transformer自注意力机制的O(BL2dk)成本(L为序列长度)。因此,MESA在实现自适应个性化的同时,保持了与基础模型可比的复杂度。
结论
本文提出的MESA方法,通过创新的元调制机制和混合专家架构,成功解决了Transformer模型在冷启动序列推荐中的适应性和多重兴趣识别难题。其插件式的设计确保了广泛的适用性和部署的便捷性。实验充分验证了MESA在提升推荐质量方面的有效性,为未来冷启动推荐系统的研究提供了一个强有力的新工具。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号