基于时间剪枝的时序交易数据库短视模式挖掘及其决策优化研究

【字体: 时间:2025年07月03日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  针对传统高效用项集挖掘(HUPM)忽视时序权重和趋势的问题,研究人员提出短视项集挖掘(SSIM)和先验短视项集挖掘(PSSIM)框架,开发了基于TUtility-list和AccU-list的高效算法,通过RB1-3剪枝策略和EURCS结构识别时效性敏感模式。该研究为医疗决策和市场营销等领域的动态策略调整提供了理论支持。

  

随着大数据时代的到来,模式挖掘(Pattern Mining, PM)已成为数据挖掘领域的核心课题。传统的高效用项集挖掘(High Utility Pattern Mining, HUPM)虽然能识别价值较高的组合模式,却像用老地图导航新城市——它只计算历史总收益,却忽略了两个关键时序特征:近期数据比远期更具参考价值(时序权重),而趋势变化比绝对值更能反映真实状态(时序趋势)。这导致某些早期高收益但持续衰退的模式(如图1中黄褐色曲线所示)被误判为优质项集,可能误导医疗方案优化或商品组合推荐等决策。

针对这一盲区,广东工业大学等机构的研究团队在《Knowledge-Based Systems》发表论文,创新性提出短视项集(Short-sighted Patterns, SSPs)概念,开发了SSIM和PSSIM两套算法体系。通过构建TUtility-list存储结构和RB1-3效用比上界剪枝策略,结合EURCS(估计效用比共现结构)优化,系统解决了时序敏感模式识别难题。对于需要追溯衰退起点的场景,PSSIM算法进一步引入AccU-list和时空剪枝策略5-6,实现了对先验短视项集(PSSIs)的精准定位。

关键技术方法
研究采用改进的垂直数据结构TUtility-list和AccU-list减少数据库扫描次数,设计三种效用比上界(RB1、RB2、RB3)和六阶段剪枝策略(含时间剪枝策略5-6),通过EURCS结构加速候选集筛选。实验对比EFIM等传统HUIM算法,验证了在FoodMart等时序交易数据集上的优越性。

主要研究结果

  1. 短视模式识别框架:首次明确定义SSPs的数学特征,揭示其"高开低走"的效用曲线特征,提出SSIM/PSSIM双问题模型。
  2. SSIM算法创新:通过TUtility-list实现单次扫描计算,结合Pruning strategies 1-4过滤85%冗余候选,其中RB3上界表现出最优剪枝效率。
  3. PSSIM时序扩展:新增indts、indδ等时间指针的AccU-list结构,支持对衰退时间窗口(δ)的精确追踪,时间剪枝策略6可缩减72%搜索空间。
  4. 实证验证:在密集数据集上,SSIM运行时间仅为EFIM的1/3,内存消耗降低40%,且能识别出传统方法遗漏的32%衰退模式。

结论与意义
该研究突破了传统HUPM的静态评估局限,首次将时序衰减特征纳入模式价值评估体系。在医疗领域,可识别疗效递减的治疗方案;在零售业中,能预警"啤酒+尿布"等经典组合的衰退期。提出的TUtility-list和AccU-list结构为时序数据挖掘提供了通用解决方案,六阶段剪枝策略尤其适合处理高维稀疏数据。未来可扩展至流数据场景,为实时决策系统提供支持。

(注:全文严格依据原文表述,专业术语如TUtility-list(时序效用列表)、EURCS(Estimated Utility-Ratio Co-occurrence Structure)等均按首次出现标注英文全称,算法名称SSIM/PSSIM等保留原文大小写格式,数学符号如RB1严格按原文上标形式呈现。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号