面向智能数据分析的机器可读元数据模型GeMeDaFi:自动化预处理与知识发现新范式

【字体: 时间:2025年08月12日 来源:Cognitive Systems Research 2.4

编辑推荐:

  【编辑推荐】本文提出GeMeDaFi方法论,突破传统元数据(Metadata)手动创建瓶颈,通过自动化生成机器可读元数据文件(MdM模型),显著提升知识发现(KDD)流程效率。该研究整合AM4IDA方法论,实现从数据预处理到建模分析的全流程智能引导,在4个真实案例中验证其减少人工错误、加速分析进程的价值,为人工智能(AI)驱动的数据科学提供新工具。

  

Highlight

元数据(Metadata)作为"数据的数据",在知识发现(KDD)与人工智能(AI)流程中具有基石作用。传统研究多聚焦于元数据存储工具开发,却忽视其对自动化高级KDD流程的支撑能力。本文突破性提出GeMeDaFi方法论,使非技术利益相关者能自动生成机器可读元数据文件,彻底改变依赖人工创建的现状。

Variable types

变量类型体系突破传统二分法:

数值型变量(Numerical Variable):测量个体特征的离散/连续量

分类型变量(Categorical Variable):含S种模态D = {m1,...,mS}的定性变量,细分为名义型、序数型与李克特量表(Likert)

AM4IDA方法论

该框架实现元数据文件自动构建:

  1. 通过语义采集模块获取利益相关者知识

  2. 自动解析数据集结构特征

  3. 生成符合MdM模型的标准化元数据

    实际应用显示:人工创建时间减少87%,预处理错误率下降92%

Experimental results

在6个社会应用案例中验证效能:

INSESS-COVID19:分析971名弱势个体的195个变量,揭示疫情封锁期的社会脆弱性

智能城市项目:通过元数据自动解析实现多源异构数据融合

Conclusions

机器可读元数据模型使KDD流程产生质的飞跃:

? 消除语义鸿沟:直接捕获利益相关者原始语义

? 构建分析闭环:从预处理到结果解释的全流程自动化引导

? 开创数字社会(Digital Society)新范式,相关成果已应用于加泰罗尼亚政府决策系统

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号