
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向智能数据分析的机器可读元数据模型GeMeDaFi:自动化预处理与知识发现新范式
【字体: 大 中 小 】 时间:2025年08月12日 来源:Cognitive Systems Research 2.4
编辑推荐:
【编辑推荐】本文提出GeMeDaFi方法论,突破传统元数据(Metadata)手动创建瓶颈,通过自动化生成机器可读元数据文件(MdM模型),显著提升知识发现(KDD)流程效率。该研究整合AM4IDA方法论,实现从数据预处理到建模分析的全流程智能引导,在4个真实案例中验证其减少人工错误、加速分析进程的价值,为人工智能(AI)驱动的数据科学提供新工具。
Highlight
元数据(Metadata)作为"数据的数据",在知识发现(KDD)与人工智能(AI)流程中具有基石作用。传统研究多聚焦于元数据存储工具开发,却忽视其对自动化高级KDD流程的支撑能力。本文突破性提出GeMeDaFi方法论,使非技术利益相关者能自动生成机器可读元数据文件,彻底改变依赖人工创建的现状。
Variable types
变量类型体系突破传统二分法:
• 数值型变量(Numerical Variable):测量个体特征的离散/连续量
• 分类型变量(Categorical Variable):含S种模态D = {m1,...,mS}的定性变量,细分为名义型、序数型与李克特量表(Likert)
AM4IDA方法论
该框架实现元数据文件自动构建:
通过语义采集模块获取利益相关者知识
自动解析数据集结构特征
生成符合MdM模型的标准化元数据
实际应用显示:人工创建时间减少87%,预处理错误率下降92%
Experimental results
在6个社会应用案例中验证效能:
• INSESS-COVID19:分析971名弱势个体的195个变量,揭示疫情封锁期的社会脆弱性
• 智能城市项目:通过元数据自动解析实现多源异构数据融合
Conclusions
机器可读元数据模型使KDD流程产生质的飞跃:
? 消除语义鸿沟:直接捕获利益相关者原始语义
? 构建分析闭环:从预处理到结果解释的全流程自动化引导
? 开创数字社会(Digital Society)新范式,相关成果已应用于加泰罗尼亚政府决策系统
生物通微信公众号
知名企业招聘