
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于逻辑连贯性增强的语言表征学习模型CeRec在序列推荐系统中的应用研究
【字体: 大 中 小 】 时间:2025年06月19日 来源:Knowledge-Based Systems 7.2
编辑推荐:
针对文本型序列推荐方法中物品交互句逻辑连贯性弱及与用户兴趣趋势难以平衡的挑战,研究人员提出新型Coherence-Enhanced语言表征学习模型CeRec。通过局部重排序窗口策略增强语义连贯性(平均连贯分数csˉ提升11.58%),同时保留用户长短期兴趣特征。实验表明其在NDCG@10指标上最高超越基线17.99%,为PLM在推荐系统的优化应用提供新范式。
随着电商平台和内容社区的爆炸式增长,推荐系统已成为解决信息过载的核心工具。其中,序列推荐通过分析用户历史交互序列预测下一兴趣项,能有效捕捉时序依赖关系。传统基于物品ID的方法(ID-Only)虽取得进展,却面临长尾物品推荐效果差、跨域迁移困难等瓶颈。尽管结合文本信息的ID-Text方法部分缓解了这些问题,但其仍依赖物品ID的固有缺陷导致模型难以适应新场景。近年来,完全基于文本的推荐方法(Text-Only)通过预训练语言模型(PLM)将物品属性转化为自然语言描述,展现出突破性潜力。然而现有方法忽视了两个关键问题:用户交互序列直接转化为文本时存在逻辑断裂(如图2a所示csˉ仅0.8164),而简单全局重排序又会破坏隐含的用户兴趣演变轨迹(如"电子产品→运动用品→电子产品"的消费趋势)。
广东某高校团队在《Knowledge-Based Systems》发表的研究提出创新解决方案CeRec模型。该研究采用局部重排序窗口技术,在增强物品交互句连贯性(csˉ提升至0.9324)的同时,通过限制重排序范围保护原始兴趣模式。模型包含四大模块:1)基于PLM的嵌入层生成物品表征;2)局部重排序层(LR)划分窗口并优化子序列;3)用户兴趣提取层(UIE)通过对比长时编码器(CLI)和层次短时编码器(HSI)捕捉多尺度兴趣;4)预测层计算推荐得分。实验采用四组公开数据集,通过消融实验验证各组件贡献,并设置不同窗口尺寸探究参数敏感性。
主要技术方法
研究使用BERT-base初始化文本编码器,通过计算相邻物品句的连贯分数(cs)量化逻辑关联度。采用滑动窗口策略将用户序列分割为局部片段(默认窗口尺寸3),在窗口内按cs降序重排生成局部连贯子序列(LCS)。长时兴趣建模采用对比学习框架,通过序列间对比损失区分用户独特偏好;短时兴趣通过分层Transformer捕获局部模式。评估指标包含NDCG@10和Recall@10,基线模型涵盖SASRec、BERT4Rec等9种方法。
研究结果
结论与意义
该研究首次系统论证了物品交互句逻辑连贯性对PLM推荐性能的影响机制,提出"局部最优连贯性"的创新理念。通过将传统序列推荐的时序建模优势与PLM的语义理解能力相结合,CeRec实现了三大突破:1)建立可量化的连贯性评估体系(csˉ指标);2)开发非破坏性重排序技术,在提升13.59%连贯性的同时完整保留86.7%原始兴趣模式;3)构建多粒度兴趣提取框架,解决长短期偏好冲突问题。这项研究为文本型推荐系统提供了新方法论,其窗口化处理思想可延伸至会话推荐、跨域推荐等场景。未来工作可探索动态窗口调整策略,以及结合知识图谱进一步增强语义连贯性。
生物通微信公众号
知名企业招聘