机器学习算法在闪锌矿微量元素数据分类中的预处理与模型优化系统研究

【字体: 时间:2025年07月16日 来源:Journal of Asian Earth Sciences 2.7

编辑推荐:

  本研究针对矿物化学数据分类中数据预处理与参数优化对机器学习(ML)模型性能影响的研究不足问题,以4,312条不平衡闪锌矿微量元素数据集为基础,系统评估了PCA、t-SNE、LDA、PLS-DA、RF、SVM和XGBoost等8种算法的分类性能。研究发现KNN/中位数填补可减少偏态数据偏差,CLR/对数变换提升线性算法表现,XGBoost在原始数据中表现最优,RFE特征选择能筛选关键判别指标。该研究为矿物数据ML建模提供了标准化预处理流程,显著提升模型精度。

  

随着原位分析技术的突破,矿物化学数据呈现爆发式增长,机器学习(ML)为矿床学研究提供了新的分析范式。然而在闪锌矿微量元素数据分类领域,数据预处理方法的选择与模型参数优化对算法性能的影响长期缺乏系统研究。中国科学院矿床地球化学国家重点实验室的研究团队在《Journal of Asian Earth Sciences》发表的研究,通过构建全球100余个铅锌矿床的4,312条闪锌矿微量元素数据集,首次系统评估了数据填补、转换和特征选择对8种ML算法的影响机制。

研究采用Geochemistry π Python框架(0.7.0版)进行数据处理,主要技术包括:六种缺失值填补方法(KNN/RF/均值/中位数/众数/保留缺失)、七种数据转换方案(CLR/对数等),通过递归特征消除(RFE)筛选关键元素特征,并运用网格搜索优化超参数。数据集涵盖MVT/VMS/SEDEX/浅成热液/矽卡岩五类矿床的12种元素(Fe、Pb、Mn、Co等)。

【数据集和方法】

研究团队收集的全球性数据集包含显著的数据偏斜和缺失问题。通过箱线图分析发现,对缺失率高的Co/Ga/Ge等元素,KNN填补对数据分布影响最小,而均值填补会显著改变统计特征。

【Effect of imputation method on model performance】

实验表明:对于偏态分布数据,KNN/中位数/众数填补能最大限度保持原始数据特征;XGBoost在未填补数据中表现突出,显示其对缺失值的强鲁棒性;而传统线性算法(LDA/PLS-DA)则依赖完整数据集。

【Conclusion】

研究确立了三项核心发现:1)CLR/对数转换显著提升PCA/t-SNE等线性算法的分类准确率;2)树模型(RF/XGBoost)在原始数据中即具优异性能,其中XGBoost在未填补数据中AUC达0.92;3)通过RFE筛选出的Cd/In/Ge等元素构成最佳判别组合。

该研究首次建立了闪锌矿微量元素ML分析的标准化预处理流程,解决了不平衡矿物数据分类的三大痛点:数据偏斜处理、缺失值填补策略和特征选择方法。特别值得注意的是,研究证实XGBoost算法在原始数据中的卓越表现,为野外快速矿物鉴定提供了无需复杂预处理的技术路径。研究成果不仅优化了矿物数据处理工作流,更为ML模型在地球化学领域的精准应用提供了方法论支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号