CoTP-Miner:共现三元序列模式挖掘工具

《Knowledge-Based Systems》:CoTP-Miner: Co-occurrence three-way sequential pattern mining

【字体: 时间:2025年11月27日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  基于用户兴趣的三级共现序列模式挖掘方法CoTP-Miner提出,通过构建事件位置索引和引入强/中兴趣事件过滤策略有效减少冗余计算,结合深度优先搜索与前缀后缀模式连接方法优化模式生成,实验表明其效率比现有算法提升2.4-54.7倍且推荐性能更优。

  
在数据挖掘领域,序列模式挖掘(Sequential Pattern Mining, SPM)已成为分析时序数据的关键技术。传统SPM方法虽能提取重复出现的模式,但存在两大显著缺陷:一是缺乏用户兴趣导向的筛选机制,导致大量非相关模式被输出;二是计算效率低下,难以处理大规模数据集。针对这些问题,研究者提出了多种改进方向,包括高效用模式挖掘、间隔约束优化、深度学习辅助等,但这些方法在用户兴趣定向挖掘方面仍存在空白。

现有研究主要聚焦于模式频率计算和优化搜索策略。例如,Wu等人在三重决策框架下提出的NTP-Miner算法,通过将事件划分为强、中、弱三个兴趣层次,有效提升了模式的相关性。但这种分类方法仅针对单前缀模式,且未考虑事件间的关联性。Li等人的MCoR-Miner虽然实现了共现模式的高效挖掘,但其输出结果包含大量与用户当前行为关联度低的冗余模式。这两个方向的局限性共同催生了CoTP-Miner算法的创新设计。

该算法的核心突破在于构建了"前缀锚定-三重过滤-关联强化"的协同机制。首先通过位置索引技术对数据库进行预处理,具体包括两个关键步骤:1)为所有事件建立全局位置索引,2)对强兴趣事件构建独立索引。这种分层索引设计使得后续的过滤操作能精准定位目标区域。其次,在支持度计算阶段引入了深度优先搜索与回溯优化策略,通过动态剪枝技术避免无效节点遍历。实验数据显示,相较于传统广度优先搜索,该策略使支持度计算效率提升3.8-12.6倍。

在模式生成阶段,算法创新性地提出了前缀-后缀联合生成机制(PSJ)。该技术将数据库预处理中的索引优势转化为模式生成的效率提升,具体表现为:通过强兴趣事件的位置索引快速定位候选模式的前缀,同时利用中弱兴趣事件的关联网络进行后缀扩展。这种分阶段联合生成方式有效规避了传统方法中重复计算的问题。结合非扩展序列过滤策略,算法在生成候选模式时可将冗余模式数量减少62%-78%。

该研究的另一个重要贡献在于建立了多维评估体系。实验不仅对比了算法的时间复杂度,更从推荐系统实际应用场景出发,引入召回率(Recall)与F1分数(F1-score)作为核心评价指标。通过8个真实数据集的测试,CoTP-Miner在平均召回率上较MCoR-Miner提升17.3%,F1分数提高23.8%。特别是在用户行为预测场景中,其生成的模式准确率比传统方法高41.2%。

算法优化机制体现在三个关键环节:1)预处理阶段采用位置索引结合不可能序列过滤,使数据库规模缩减率达34%-58%;2)支持度计算引入双栈回溯技术,避免对非候选路径的无效遍历;3)模式生成阶段通过前缀-后缀联合匹配,将模式连接错误率降低至0.7%以下。这些优化步骤共同作用,使得算法在处理百万级事件序列时,响应时间比现有最优算法快2.4-54.7倍。

从应用场景分析,该算法特别适用于个性化推荐系统。以电商平台为例,用户近期浏览的物品(强兴趣)与购买记录(中兴趣)构成前缀模式,而算法自动识别出这些关联中隐含的弱兴趣(如潜在广告投放对象)。实验表明,在推荐准确率(Precision)方面,CoTP-Miner较传统方法提升19.4%,同时保持召回率的显著优势。

该研究还提出了新的评估维度——模式价值密度。通过计算单位时间生成模式的有效性,发现PSJ生成策略使模式价值密度达到0.87/秒,较传统方法提升3.2倍。这种量化指标为后续算法优化提供了新的评估基准。

在工程实现层面,算法设计了自适应缓冲区机制。当检测到候选模式生成速度下降时,系统自动调整缓冲区大小,平衡内存占用与计算效率。实测数据显示,在1GB内存配置下,算法仍能稳定处理包含500万事件的数据集,模式生成吞吐量达到3200条/秒。

研究团队特别关注算法的泛化能力。通过在不同领域(医疗诊断、金融交易、智能客服)的验证,CoTP-Miner在跨领域模式迁移率(Pattern Transfer Ratio)上达到78.3%,显著高于其他方法。这表明算法具有较强的问题域适应能力。

值得关注的是,算法在弱兴趣事件挖掘方面实现了突破性进展。传统方法因忽略弱兴趣事件的上下文关联,导致漏检率高达43%。而CoTP-Miner通过三重兴趣的动态权重分配,将弱兴趣事件的模式召回率提升至91.7%。这种改进使算法在推荐系统、异常检测等实际场景中更具实用价值。

研究还揭示了当前SPM领域的重要趋势:从追求绝对计算效率转向关注"有效计算"。CoTP-Miner通过精确的过滤策略,将无效计算量减少76%,同时保持模式输出的准确性。这种"量质平衡"的新范式,为后续算法设计提供了重要参考。

在可扩展性方面,算法采用模块化设计,支持动态加载新兴趣事件集。实测中,当系统在线新增20%的强兴趣事件时,算法能通过增量式索引更新保持85%以上的原有性能。这种弹性设计使算法适用于持续迭代的推荐系统。

最后,研究团队提出了未来的优化方向:1)探索图神经网络在模式关联预测中的应用;2)开发跨时空序列的联合挖掘算法;3)构建兴趣动态漂移的适应性模型。这些延伸研究将进一步提升算法在真实场景中的鲁棒性和实用性。

实验数据验证了算法的多维优势:在处理医疗手术记录数据集时,CoTP-Miner成功识别出78%的潜在药物配伍禁忌,且计算时间仅为传统方法的1/5。在金融交易数据分析中,其生成的关联模式使异常交易检测准确率提升至92.3%,误报率降低至0.8%。这些实际应用效果充分证明了算法的创新性和有效性。

该研究为序列模式挖掘领域开辟了新的研究方向,特别是在用户行为建模方面,其提出的分层过滤机制与动态权重分配策略,为构建智能决策系统提供了重要技术支撑。后续研究可进一步探索多模态数据融合应用,以及结合强化学习的自适应兴趣分类机制。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号