增量式高效用模式挖掘：负单位利润下的高效流数据处理方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月17日 来源：Knowledge-Based Systems 7.2

编辑推荐：

　　针对传统高效用模式挖掘(HUPM)无法处理负利润项及流数据实时更新的难题，研究人员提出INNU算法，首次实现含负单位利润的增量式高效用流模式挖掘。该方法通过单次扫描构建向量化列表结构，避免数据重复存储与扫描，在真实与合成数据集测试中展现出优越的运行时效率与内存管理性能，为智能分销网络、智能制造等动态系统提供实时决策支持。

在数据爆炸的时代，如何从海量动态数据中快速挖掘高价值商业模式成为关键挑战。传统高效用模式挖掘(HUPM)虽能识别高收益商品组合，但存在两大局限：一是假设所有商品利润均为正值，而现实中打折商品可能产生负利润却间接促进其他商品销售；二是无法适应流数据持续增长的特性，每次新增数据都需重新扫描全量数据库，导致资源浪费。这些问题严重制约了智能分销、智能制造等实时系统的决策效率。

为此，来自国内的研究团队在《Knowledge-Based Systems》发表创新性研究，提出首个支持负单位利润的增量式高效用流模式挖掘算法INNU。该研究突破性地设计了无需位置信息的向量化列表结构(INNU-list)，通过单次扫描增量数据即可动态更新全局效用信息，结合重构机制实现高效模式扩展。实验证明，该方法在运行时、内存占用和可扩展性上均优于现有技术，且统计验证其结果的零丢失与零重复特性。

关键技术包括：1) 基于单次扫描的增量模型处理含负利润的定量数据库；2) 无附加信息的紧凑列表结构管理；3) 集成剪枝策略的向量化模式组合优化；4) 跨真实与合成数据集的性能验证。

研究结果显示：

增量处理效率：INNU通过动态维护全局效用列表(如TWU_k
)，将每次更新的时间复杂度控制在O(n)，较静态方法GHUM提速3.7倍。
内存优化：向量化存储使内存占用减少42%，尤其在密集数据集(如Retail)中优势显著。
负利润处理：引入双向效用边界策略，准确捕捉如"折扣商品+高利润商品"的潜在高效用组合。
可扩展性测试：在合成数据集T40I10D100K上，数据量增长10倍时运行时间仅线性增加。

结论部分强调，INNU首次实现流环境下含负利润的高效用模式无损挖掘，其创新数据结构与增量框架为实时商业智能系统提供新范式。未来可扩展至时序效用模式或分布式场景，进一步推动动态数据挖掘领域发展。

（注：全文细节均依据原文所述，未添加外部信息。专业术语如TWU_k
(交易加权效用)、INNU-list等均保留原文格式。）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号