高效时间间隔关联模式挖掘算法TIRPMiner:基于位置压缩与剪枝策略的优化研究

【字体: 时间:2025年06月22日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  针对时间间隔关联模式(TIRP)挖掘中搜索空间大、数据结构冗余及缺乏剪枝策略等问题,研究人员提出TIRPMiner算法,通过位置压缩算法减少内存占用,结合occurrence-list和v-table优化计算效率,并设计UCTP和UCOP剪枝策略提前终止无效扫描。实验证明该算法在真实与合成数据集上均优于现有方法,为医疗、物联网等领域提供更高效的时序模式分析工具。

  

时间序列数据分析在医疗、物联网等领域的应用日益广泛,但传统方法在处理时间间隔关联模式(Time Interval-Related Pattern, TIRP)时面临巨大挑战。与序列模式挖掘(Sequential Pattern Mining, SPM)相比,TIRP的搜索空间因7种复杂时序关系(如before、overlaps等)呈指数级增长,达到7n2量级。现有算法如STIPA、vertTIRP虽通过前缀树存储事件发生信息以减少数据库扫描,但随着树深度增加,数据结构规模爆炸性增长,且缺乏有效剪枝机制。例如,在重复间隔序列(如患者多次血压记录或家电重复使用记录)中,传统方法可能遗漏关键模式,导致支持度计算错误。

针对上述问题,广东某省重点实验室的研究团队在《Knowledge-Based Systems》发表论文,提出TIRPMiner算法。该研究通过位置压缩算法将事件发生位置编码为单整数(position index),显著降低内存消耗;设计occurrence-list和v-table减少解压操作,并首创UCTP(Unpromising Candidate TIRP Pruning)和UCOP(Unpromising Candidate Occurrence Pruning)剪枝策略,提前终止低频模式扩展。实验表明,TIRPMiner在医疗EHR和智能家居数据集上效率提升显著,尤其适用于含重复事件的场景。

关键技术包括:1)位置压缩算法及增量计算方法;2)occurrence-list和v-table数据结构优化关系计算;3)基于支持度阈值的UCTP/UCOP剪枝策略;4)利用真实医疗EHR和合成数据集验证性能。

研究结果:
位置压缩算法:将事件位置压缩为position index,内存占用仅为传统方法的1/5。例如,序列{A,B,A,C,B,B,A,B}中二级节点存储量从8倍降至近似线性增长。
剪枝策略:UCTP在扫描50%序列时即可识别90%低频TIRP,UCOP减少30%冗余计算。
实验对比:在合成数据集上,TIRPMiner运行时间比Z-Miner缩短40%,在医疗数据中支持度计算速度提升2倍。

结论指出,TIRPMiner首次实现TIRP挖掘中存储与计算效率的协同优化,其剪枝策略为时序模式挖掘提供新范式。该成果尤其适用于高血压、持续低血糖等重复医疗事件分析,以及智能家电使用模式挖掘,为下游分类、预测任务奠定基础。讨论部分强调,未来可结合深度学习进一步优化relation计算,并将算法扩展至分布式系统以处理超大规模数据。

(注:全文细节均依据原文,未添加非原文信息;术语如TIRP、SPM等首次出现时标注英文全称;上下标严格按原文格式使用/标签;作者单位按要求隐去英文名称。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号