《Knowledge-Based Systems》:Adaptive Optimization with Reinforcement Learning for High Utility Itemset Extraction
编辑推荐:
提出OCHUI方法,结合RUPC模型和CAAO-RL算法,通过优化高价值项目集挖掘过程,提升效率并减少计算成本。
K Logeswaran|P Suresh|S Savitha|S Anandamurugan
人工智能系,Kongu工程学院,Perundurai,Erode 638060,泰米尔纳德邦,印度
摘要
高效用项集(HUI)的提取在数据挖掘中起着至关重要的作用,为此开发了多种技术。然而,在处理大型数据集和多样化项目时,问题的搜索空间变得非常复杂和庞大。这使得识别HUI的任务在计算上更加昂贵且耗时。本文提出了一种基于优化覆盖列表单元效用的高效用项集(OCHUI)提取方法。该方法主要包括两个过程:高效用模式的提取和合格高效用项集的提取。第一步是通过数据挖掘指标(如重新定义的交易加权效用、正负单位利润、购买数量和覆盖度(RUPC)来识别高效用模式。第二步,使用一种称为Cuckoo搜索辅助蚁群优化与强化学习(CAAO-RL)的自适应优化算法来最优地获取合格的高效用项集。强化学习(RL)利用开/关策略方法智能地调整优化参数。实验结果表明,RUPC模型的模式得分为13600,运行时间为10.256秒,内存使用量为198MB。
引言
知识数据发现是指将大型非结构化数据集转化为具有特定情境相关性和应用价值的知识的过程[1]。高效用项集挖掘(HUIM)[2]是一个重要的研究领域,具有众多实际应用,包括生物信息学、移动商务规划、通过网络点击的用户行为分析、交叉营销等。HUIM[3]可以看作是传统频繁项集挖掘(FIM)的进阶版本,它识别数据库中频繁出现的项集(称为频繁项集或FIs)。数据库中的每条记录都包含购买项目的数量信息,每个项目还关联有利润[4]。虽然FIM仅考虑项目出现的频率而忽略其他重要因素[5],但HUIM通过考虑利润确保了识别出的项集具有价值。仅关注频率的FIM可能会导致识别出的项集利润较低,而用户更感兴趣的是具有较高利润的项目组合,而不仅仅是频繁出现的项目[6]。
HUIM算法旨在解决三个关键挑战:庞大的搜索空间、过度的内存使用以及确定项集效用值所需的长时间计算[7]。HUIM算法中采用的主要搜索策略是DFS和BFS。基于广度优先搜索的算法包括UMing、两阶段和IIDS[8]。UMing策略首次提出了HUIM的概念及其相应的解决方案,利用Apriori结构来导航搜索区域。它根据之前找到的(n-1)项集来估计n项集的效用值[9],然后使用这些值生成候选项集。两阶段HUIM模型在向下闭合属性中广泛应用交易加权利用率(TWU)[10]。在两阶段方法中,第一阶段使用(k-1)项集生成k个候选项集,第二阶段评估它们的效用值以找到高效用或合格的项集[11,12]。如果第一阶段没有生成候选项集,算法将终止并输出最终结果[13]。
上述项集挖掘方法缺乏灵活性,因为它们需要特定的数据结构或算法来提取不同类型的项集[14]。特别是当每种项集类型都由一个兴趣度量定义时[15],为每种不同的项集类型开发新的数据结构或算法变得不切实际[16]。这种限制导致许多潜在的项集未被发现,因为所需的数据结构和算法不可用[17]。因此,创建一个能够检索不同类型项集的统一基础设施是一个重要的问题。本研究的主要贡献如下:
•从数据库中提取基于RUPC的高效用模式,包括重新定义的交易加权效用、正负单位利润、购买数量和覆盖度。
•引入Cuckoo搜索辅助蚁群优化与强化学习算法,以最优方式获取合格的高效用项集。该学习方法利用开/关策略智能地调整优化参数。
本节的其余部分结构如下:第2节介绍了传统工作的回顾。第3节展示了所提出的方法。第4节通过与传统方法的比较来检验所提出的方法。第5节总结了所提出的方法。
节选内容
文献综述
2022年,Fujioka K和Shirahama K [18]提出了一种名为GIM-RL的方法,该方法为训练代理提取任何类型的项集提供了一个统一框架。在GIM-RL中,环境通过迭代步骤指导代理提取目标项集,并根据相关性给予奖励。代理通过试错学习最优提取策略。只要能确定合适的奖励,该框架就可以训练代理提取任何类型的项集。
2020年,Wei T等人[19]
提出的方法
高效用项集提取旨在在交易数据库中定位具有高效用的项集,通常通过利润或价值来衡量,而不仅仅是它们的出现频率。这与传统的关联规则挖掘不同,后者主要根据项集出现的频率进行评估,而高效用提取则优先考虑为特定目的提供最大价值的项集。本研究提出了一种新的优化覆盖列表单元
仿真过程
所提出的高效用项集提取方法是使用PYTHON(版本3.7)进行仿真的。使用的处理器是“第11代Intel(R) Core(TM) i5-1135G7 @ 2.40GHz 2.42 GHz”,安装的内存大小为16.0 GB。此外,使用零售数据集(数据集1)[38]和T10I4D100K交易数据库(数据集2)[39]对高效用项集提取进行了分析。
数据集概述
数据集1描述:该数据集包含88,162条交易,共计16,470个
结论
本研究提出了一种基于优化覆盖列表单元效用的高效用项集(OCHUI)提取方法。所提出方法的两个关键组成部分是高效用模式的提取和合格高效用项集的提取。第一步是从数据集中提取指标,包括重新定义的交易加权效用、正负单位利润、购买数量和覆盖度(RUPC),以找到高效用模式。
伦理批准
不适用
作者署名声明
Logeswaran K:概念化、方法论。Suresh P:数据整理、原始草稿撰写。Savitha S:可视化、调查。Anandamurugan S:监督、软件开发、验证。
CRediT作者贡献声明
K Logeswaran:撰写——原始草稿。P Suresh:撰写——审阅与编辑。S Savitha:撰写——审阅与编辑。S Anandamurugan:撰写——审阅与编辑。