综述:利用过程挖掘技术优化自动化数据交付中心数据库的数据准备时间

【字体: 时间:2025年06月13日 来源:MethodsX 1.7

编辑推荐:

  本文创新性地将过程挖掘(Process Mining)技术应用于地震大数据处理流程,通过分析事件日志(Event-logs)重构数据库请求-准备-交付全链条,结合定制化脚本(Unmanned Tools)将传统25天的手工处理周期压缩至8天,为地震学中心(IRSC/USGS)等大型科学数据中心的时效管理提供了可复用的BPMN模型与性能优化方案。

  

背景
在数据爆炸时代,地震监测网络持续产生海量波形数据(如USGS每年收录超300万条地震记录),传统人工处理流程存在显著效率瓶颈。伊朗地震学中心(IRSC)的案例显示,仅完成900条地震波形记录(含3分量×20台站=18000数据单元)的数据库交付就需25天,严重制约科研进度。

方法细节
过程挖掘技术通过解析事件日志中的四元组信息(Case ID/Activity/Timestamp/Resource),采用三阶段分析法:

  1. 过程发现(Discovery)
    基于Petri网或BPMN语言,从表1所示事件日志中自动重构真实流程。例如图3揭示23.8%的案例偏离理论路径,存在"请求会员卡折扣"等非标分支。

  2. 一致性检查(Conformance Checking)
    通过图10的虚线矩阵分析,检测到数据准备阶段存在4.5天平均闲置(图13),主要源于人工审核环节的资源阻塞。

  3. 过程增强(Enhancement)
    部署MATLAB脚本实现信号预处理自动化(图6-c),将波形去噪步骤耗时从72小时缩短至3.2小时。关键参数包括正则化系数α=0.05,容错阈值σ=1.5×10-3

数据特征
研究区域覆盖38°-42.5°N/44°-51°E的388,111.5 km2
(图5),采用1999-2018年间M≥4.0地震的宽带/短周期记录。数据生命周期(图8-d)显示原始ASCII格式需经历:

  • 数据清洗(清除信噪比<2.3的异常值)
  • 特征提取(识别基频模态,图6-b红色区)
  • 格式转换(IRIS标准SEED格式)

性能优化
流程挖掘揭示核心瓶颈在于:

  • 76%处理时间集中在人工核验(图12-b)
  • 支付环节存在3.8天平均延迟(图14-a)
    优化后关键指标:
  1. 吞吐时间中位数从5.2天降至1.9天(图14箱线图)
  2. 资源利用率提升217%(Mahtab账户处理量从18%→56%)

应用前景
该框架已成功移植至德黑兰大学(IGUT)地震实验室,其XES标准日志系统(IEEE 2016)可兼容SAP/Oracle等商业平台。未来可扩展至:

  • 医疗影像数据中心(DICOM格式处理)
  • 基因组学数据库(FASTQ质量控制)
  • 实时流行病监测系统

伦理声明
本研究仅涉及公开地震目录数据,不含人类受试者信息。

作者贡献
Seyed Hossein Abrehdari完成从算法开发到论文撰写的全流程工作,采用Disco/Prom等开源工具实现可视化(图9-14)。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号