利用基于深度学习的特征工程方法,对韩国环境土壤样本进行有效的地理来源细分和分类
《Ecological Informatics》:Utilizing deep learning-based feature engineering for effective geographical origin subdivision and classification of environmental soil samples in South Korea
【字体:
大
中
小
】
时间:2025年10月06日
来源:Ecological Informatics 7.3
编辑推荐:
Sr同位素与地质化学多变量数据融合的深度学习框架用于南韩土壤地理来源分类,通过自编码器特征提取和层次聚类结合随机森林模型,有效划分6个地质意义明确的来源区,提升环境样本溯源精度。
本研究探讨了如何通过整合互补的地球化学分析与深度学习技术,以更精确地确定环境样本的地理来源。随着全球范围内对环境样本来源识别的需求日益增加,特别是在农业、法医学、考古学和地质学等不同领域,开发一种能够有效识别土壤样本来源的框架显得尤为重要。传统的分析方法,如插值和回归,往往受到数据复杂性和统计不确定性的影响,难以准确捕捉土壤样本的地理来源特征。因此,研究团队引入了一种基于自动编码器(Autoencoder, AE)的深度学习方法,结合无监督分类技术,以提高分析的准确性和效率。
在这一研究中,首先对韩国全国范围内的土壤样本进行了系统采集,共收集了412个样本。这些样本的地球化学和同位素数据,包括交换性Sr同位素比值(87Sr/86Sr)、交换性Sr浓度和生物可利用的Sr同位素比值,以及10种主要氧化物的浓度,如SiO?、Al?O?、Fe?O?、CaO、MgO、K?O、Na?O、TiO?、MnO和P?O?。这些变量的选择基于它们在地球化学来源分析中的重要性,并且能够反映岩石类型和地质特征的变化。
为了减少数据的维度并提高分类的准确性,研究团队采用了两种特征提取方法:主成分分析(PCA)和自动编码器(AE)。其中,PCA是一种线性统计方法,用于简化复杂数据集,减少变量数量。然而,PCA在处理非线性数据时存在局限性,因此引入了AE,这是一种非线性特征提取方法,通过多层神经网络学习数据的潜在表示,从而在高维数据中提取非线性特征。实验结果显示,AE在捕捉复杂的数据模式方面表现更优,能够有效减少数据的维度,同时保持数据的地质可解释性。
在特征提取之后,研究团队应用了层次聚类(Hierarchical Clustering, HC)方法进行分类。通过计算Silhouette分数和Davies–Bouldin分数,评估了不同聚类数量下的分类效果。研究发现,当使用AE提取的特征进行分类时,模型在不同聚类数量下的Silhouette分数和Davies–Bouldin分数均优于直接使用原始数据的分类结果。此外,通过调整聚类数量,研究团队进一步优化了分类模型,使其能够更准确地反映土壤样本的来源特征。
分类模型的构建过程中,研究团队采用了随机森林(Random Forest, RF)算法,以提高分类的准确性和鲁棒性。为了应对样本数量不平衡的问题,研究团队应用了合成少数过采样技术(SMOTE),以增强模型的泛化能力。模型的性能评估通过一个独立的测试数据集进行,该数据集由每个来源的10个未增强样本组成,确保分类结果的独立性和准确性。
研究还发现,某些来源之间的分类存在重叠,例如来源3和来源6的样本在数据空间中表现出较高的相似性。为了提高分类的准确性,研究团队将这两个来源合并为一个,最终确定了六种不同的地理来源。这一结果表明,通过非线性特征提取和无监督分类,能够更有效地识别土壤样本的来源特征。
在实际应用中,该框架具有广泛的适用性。例如,在农业领域,它可以用于验证作物的地理来源,从而增强食品安全性。在法医学领域,土壤样本的来源分析可以帮助确定犯罪现场的地理信息,为案件提供科学依据。在考古学领域,土壤样本的来源分析可以揭示古代遗址的地理背景,为考古研究提供新的视角。此外,该方法还可以用于环境监测,帮助识别地理区域内的异常变化,为环境保护和资源管理提供支持。
尽管该框架在韩国的土壤样本分析中表现出色,但其应用也面临一些挑战。例如,在花岗岩主导的地区,由于岩石成分的相似性,可能导致来源分类的分辨率降低。此外,虽然AE能够捕捉非线性关系,但其潜在特征不如PCA成分直接可解释,这可能会影响地质解释的准确性。因此,未来的研究需要进一步优化模型,以适应不同的地质环境,并提高分类结果的可解释性。
总体而言,该研究通过结合深度学习和地球化学分析,提供了一种新的方法,能够更准确地识别土壤样本的地理来源。这种方法不仅提高了分类的精度和效率,还为跨学科的应用提供了可能,如农业追溯、法医学、考古学和环境监测等领域。未来的研究可以进一步探索如何将该框架应用于其他国家或地区,以实现全球范围内的环境样本来源分析。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号