
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于对比学习的跨模态特征对齐与融合多模态推荐模型CLAM研究
【字体: 大 中 小 】 时间:2025年07月08日 来源:Knowledge-Based Systems 7.2
编辑推荐:
针对多模态推荐系统中特征对齐导致的信息丢失/噪声引入,以及过度依赖交互数据引发的模态融合不充分问题,研究人员提出CLAM模型。该模型通过对比学习(CL)实现以物品ID嵌入为锚点的跨模态间接对齐,结合多任务学习机制协同优化行为特征与多模态特征。实验表明CLAM在三个真实数据集上超越现有基线模型,为多模态推荐提供新范式。
随着多媒体信息的爆炸式增长,多模态推荐系统正成为破解信息过载难题的关键技术。这类系统通过整合文本、图像、音频等异构数据为用户提供个性化推荐,但现有方法面临两大痛点:一方面,不同模态特征在直接对齐过程中,过度追求相似性会导致模态特异性信息丢失或引入噪声;另一方面,稀疏的用户-物品交互数据难以支撑准确的模态特征融合,使得模型性能遭遇瓶颈。
大连理工大学的研究团队在《Knowledge-Based Systems》发表的研究中,提出名为CLAM的创新模型。该研究首次将对比学习(CL)引入多模态推荐领域,通过以物品ID嵌入为"锚点"的间接对齐策略,在保留模态独特信息的同时优化特征分布;设计的多任务学习框架则打破了对交互数据的单一依赖。实验证明CLAM在Amazon系列数据集上全面超越MMGCN、BM3等基线模型,NDCG指标最高提升12.7%。
关键技术包括:1) 基于图神经网络(GNN)构建用户-物品二部图捕捉高阶关系;2) 设计跨模态对比损失函数实现ID嵌入与各模态特征的语义对齐;3) 采用多任务学习联合优化推荐主任务和特征对齐辅助任务。
【特征对齐与融合】
通过对比学习将视觉、文本等模态特征与ID嵌入在共享空间对齐,既保持模态独特性又增强特征判别力。消融实验显示该模块使召回率提升8.3%。
【表征学习】
整合GNN传播的多跳协同信号与对齐后的多模态特征,用户偏好建模误差降低19.6%。可视化证实该方法能有效区分正负样本。
【实验分析】
在Amazon-Book等数据集上的测试表明,CLAM的HR@10指标显著优于基线模型。模态对齐质量分析显示,文本-视觉特征相似度分布更合理,验证了间接对齐的优势。
这项研究的突破性在于:首次将ID嵌入作为跨模态对齐的桥梁,开创性地解决了传统方法中特征扭曲难题;提出的多任务框架为缓解数据稀疏性提供了新思路。技术方案可扩展至医疗影像-病历文本匹配等跨模态检索场景,对推动多模态人工智能发展具有重要启示。作者团队特别指出,未来工作将探索动态权重分配策略以进一步提升模态融合效果。
生物通微信公众号
知名企业招聘