《Applied Sciences》:Soil Classification from Cone Penetration Test Profiles Based on XGBoost
编辑推荐:
本研究提出了一种基于XGBoost机器学习框架的静力触探(CPT)土壤分类方法,通过滑动窗口特征提取策略,将单桥CPT数据(仅含比贯入阻力ps)转化为多维特征矩阵,实现了对上海地区9类土壤的高精度(总体准确率92.6%,mAP 0.954)自动识别,有效提升了传统经验图表法的连续性和可靠性,为复杂地层条件下的工程勘察提供了新方案。
摘要
本研究开发了一种基于机器学习的多类别土壤分类框架,利用静力触探(CPT)数据,旨在克服传统经验土壤行为类型(SBT)图表的局限性,并提高地层解释的自动化、连续性、鲁棒性和可靠性。研究编译了来自上海26个场地的340个CPT探测数据,并引入了滑动窗口特征工程策略,将点测量值转换为局部模式描述符。随后,使用15个工程特征构建了基于XGBoost的多类别分类器,该分类器集成了二阶优化、正则化树结构和基于概率的决策函数。结果表明,所提出的方法在九个土壤类别上均表现出强大的分类性能,总体分类准确率约为92.6%,平均F1分数超过0.905,平均平均精度(mAP)为0.954。混淆矩阵、P-R曲线和预测概率表明,具有明显CPT特征的土壤类型能以近乎完美的置信度进行分类,而过渡性的粘土-粉土相则表现出适度但地质上一致的误分类。为了评估深度方向的预测可靠性,提出了一个准确率覆盖率(ACR)指标。对所有CPT的分析显示,平均ACR为0.924,且ACR服从威布尔分布。特征重要性分析表明,深度相关变量和平滑后的ps统计量是控制土壤行为分异的主要预测因子。所提出的基于XGBoost的框架有效捕捉了CPT与土壤之间的非线性关系,为地下勘察中的高分辨率土壤分类提供了一个实用且可解释的工具。
1. 引言
在岩土工程应用中,如隧道开挖、基坑支护和边坡稳定,准确的土壤分类对于确保施工安全和实现经济高效至关重要。正确识别土壤类型、性质和地层分布为设计和分析提供了可靠的岩土参数,从而降低了坍塌、过度沉降和结构失效的风险。传统上,土壤分类主要依赖于钻孔取样和随后的室内试验,这可以提供土壤层的详细信息。然而,这种方法耗时、成本高且空间受限。钻孔通常间距较大,导致离散的数据点无法捕捉地下条件的连续变异性。此外,钻探可能会扰动地层,并可能影响后续施工过程。
为了克服这些限制,静力触探(CPT)已成为一种先进且广泛使用的原位勘察技术。CPT涉及以恒定速率将圆锥触探仪压入地下,同时连续记录锥尖阻力、套筒摩擦力和孔隙水压力。这些测量提供了土壤的高分辨率力学和水文地质剖面。与传统的基于钻孔的方法相比,CPT具有几个显著优势:侵入性小,避免了取样相关的扰动;测试快速,每个探测可在较短时间内完成;产生连续、高密度的数据,能够捕捉细微的地层变化,提高土壤分类准确性;设备相对简单、便携且成本效益高,适用于各种地质环境。由于这些优点,CPT已成为现代岩土勘察中一种高效可靠的土壤分类工具。
准确的基于CPT的土壤分类为广泛的岩土工程应用提供了基础。从CPT数据推导出的可靠地层划分对于三维地质建模和不确定性表征至关重要,其中土壤类型边界强烈影响模型的真实性。此外,基于CPT的土壤分类通常用于支持基础设计,为设计参数的选择提供信息并识别软弱或异质层。它在地质灾害评估中也发挥着重要作用,例如评估沉降潜力、承载力变异性以及软土或松散土层对变形相关灾害的敏感性。
基于CPT数据的土壤分类研究已有很长的历史。早期研究主要依赖经验公式和基于图表的方法来识别土壤行为类型(SBT)。许多研究人员使用锥尖阻力(qt)、比贯入阻力(ps)、套筒摩擦力(fs)和孔隙水压力(u2)开发了经验图表来分类土壤类型和评估土壤行为。这些方法通常采用归一化参数,如归一化锥尖阻力(Psn)和摩擦比(Fr),并使用SBT图表来区分砂土、粉土和粘土。此外,一些研究引入了概率或模糊方法来处理CPT数据中的不确定性,通过统计分析或模糊子集优化分类边界以减少误分类。针对特定土壤类型,如灵敏性土、有机土、碳氢化合物污染土、超固结土甚至月球土壤,研究人员提出了修正的经验公式,结合了部分排水条件或孔隙压力梯度等因素来评估抗剪强度并改进分类。在细粒土研究中,一些工作将落锥试验的锥入指数或塑性参数与CPT数据结合以提高分类准确性。此外,利用现场数据集和经验回归,一些研究建立了CPT参数与剪切波速或先期固结压力之间的关系,提供了间接的土壤分类方法。除了原位CPT解释,一些研究探索了实验室锥入度试验的替代或补充方法,特别是广泛用于表征细粒土一致性和不排水抗剪强度的落锥试验。最近的研究调查了通过数据驱动和物理信息方法替代或增强落锥试验,包括在实验室测量上训练的机器学习模型、基于电导率的表征和数字实验室(DDL)框架。这些方法旨在减少实验不确定性,提高可重复性,并实现不依赖传统锥入度程序的土壤力学性质快速估计。这些发展凸显了整合先进数据分析和传感技术以支持原位和实验室尺度锥入度土壤表征的更广泛趋势。尽管这些传统方法在工程实践中被广泛使用,但它们仍然依赖于经验SBT图表和主观的边界定义。因此,它们存在一些局限性,如模糊的分类边界、对土壤微观结构效应考虑不足以及数据处理不确定性不足。这些缺点导致在复杂或异质土壤条件下准确性降低,并且难以量化分类概率。因此,提高基于CPT的土壤分类的可靠性和自动化不仅是一个方法学问题,也是在复杂地质条件下增强地层建模、基础设计和地质灾害相关决策的先决条件。
随着机器学习技术的快速发展,许多研究人员将CPT数据与机器学习算法相结合,显著提高了土壤分类的自动化和准确性。这些方法克服了传统经验方法在处理复杂地下不确定性和区域变异性方面的局限性。一些研究采用了人工神经网络(ANN)和支持向量机(SVM)等算法,实现了对细粒土、灵敏性土和有机土的高精度分类,准确率常超过90%。这些方法也已扩展到三维地下建模和液化潜力评估。集成学习方法,如随机森林(RF),以及梯度提升技术,包括XGBoost,也被广泛应用于处理CPT数据中的噪声和非线性关系。这些方法在新西兰和土耳其等地区表现出强大的性能,分类准确率超过95%。此外,深度学习模型——如卷积神经网络(CNN)和长短期记忆网络(LSTM)——通过直接从原始CPT信号中提取特征,推进了端到端的自动分类。它们实现了对有机土和灵敏性土的精确识别,而迁移学习和注意力机制等技术提高了模型的泛化能力。半监督聚类和贝叶斯方法也通过整合CPT和钻孔数据得到应用,增强了地层解释的鲁棒性,并在挪威和希腊等地区实现了高精度的SBT分类。尽管这些基于机器学习的方法取得了实质性进展,但它们仍然面临显著挑战,包括对标记数据的依赖、有限的可解释性以及在区域偏差或噪声条件下泛化能力降低。相比之下,XGBoost为基于CPT的土壤分类提供了若干实际优势。其二阶优化和正则化树集成提高了在异质土壤中的准确性和鲁棒性,而其可解释的特征重要性和经过良好校准的概率输出比典型的深度学习模型提供了更清晰的地质见解。这些特性使XGBoost成为构建高质量CPT土壤分类模型的可靠且有效的选择。
为了捕捉CPT剖面中嵌入的土壤分类信息并增强土壤分类模型的泛化能力,本研究利用从中国上海收集的340个CPT探测数据集,开发了一种基于XGBoost和滑动窗口方法的多类别土壤分类模型。
2. 基于CPT的数据准备和特征工程
2.1. 数据采集与预处理
从上海地区的岩土工程勘察报告中共收集了340个静力触探(CPT)探测数据。这些CPT探测主要采集自上海市区(如徐汇、黄浦、虹口区)的施工现场(例如地铁隧道、深基坑)。所有CPT数据均使用Getdata V2.24软件提取,测量记录间隔为0.1米。土壤剖面涵盖九种主要土壤类型,包括填土、粘土、粉土和砂土。在本研究中,这些土壤被统一标记为类型1至类型9。尽管某些土层包含亚层,但本研究未作区分,所有土壤均归类为九种主要类型。
上海使用的CPT系统是单桥类型,仅提供一个参数,即比贯入阻力(ps)。仅拥有ps值的限制制约了传统土壤分类图(如Robertson图)的应用。此外,仅使用深度和ps作为输入特征为机器学习方法提供的信息有限,可能导致对CPT变化的表征不足。为了解决这个问题,提出了滑动窗口方法从CPT数据中提取更具信息性的特征。
2.2. 滑动窗口方法与特征提取
为了克服低维单桥CPT数据的限制,采用滑动窗口方法作为一种特征工程策略,将建模范式从“基于点的预测”转变为“局部模式识别”。传统方法基于单个深度点的ps值预测土壤类型,而所提出的方法利用0.5米深度区间内的ps值模式来预测土壤类型。这使得模型能够利用局部ps趋势的统计特征,而不是仅仅依赖单个点测量值。窗口参数包括窗口大小和步长。本研究中,窗口大小设置为0.5米,意味着包含5个连续数据点。0.5米的窗口大小主要是基于工程判断选定的,在所研究场地的背景下,0.5米代表了可识别土层的大致最小厚度。步长定为0.2米,意味着窗口每次移动2个数据点,这是通过旨在优化模型性能的系统试错法确定的。
应用滑动窗口后,从每个窗口中提取多个特征。这些特征分为五组:
(1) 原始ps特征:描述每个窗口内原始ps值的基本统计特性。主要包括原始ps值的平均值、标准差、最大值、最小值、中位数、极差和变异系数。
(2) 平滑ps特征:这组包含从去噪后的ps信号导出的统计指标,该信号使用Savitzky-Golay滤波器获得,以阐明潜在趋势。局部最小二乘拟合的多项式阶数设置为2。提取的特征包括平滑后ps值的平均值、标准差和极差。
(3) 对比特征:此类包含旨在量化原始和平滑ps序列之间差异的指标。提取以下特征:平滑对变异性的影响、平滑对极差的影响以及原始与平滑均值的比率。
(4) 差分特征:为了捕捉ps剖面的局部变化率和趋势不稳定性,计算了一阶差分。然后从这些差分中计算其平均值和标准差。
(5) 深度特征:这些特征为每个窗口提供必要的上下文深度信息。该组包括窗口的中心深度和相对深度位置。
2.3. 工程化特征的表征
对上海识别的九种土壤类型的CPT比贯入阻力ps进行了统计分析。上海从CPT数据分类的土壤剖面通常遵循从近地表的软土层到更深、更密实地层的沉积序列。地层分类遵循上海工程规范,其中土壤根据相似的工程性质被分组为编号类型。每个主要土壤类型内的子类被合并以创建复合类别,反映了上海常见的工程实践,岩土工程师在初步设计阶段通常参考这些主要类型。剖面始于填土,下伏软土,包括粉质粘土和淤泥质粉质粘土,以及极软的淤泥质粘土。类型5代表一个过渡,包括互层的粘土、粉质粘土和砂质粉土。更深的层由粉质粘土组成,随后显著转变为较粗的粉砂和细砂。剖面继续有另一个粉质粘土层,并以密实的深层粉土夹粉砂结束。应注意,本研究中采用的土壤类型名称遵循上海现场勘察中常规的基于CPT的分类实践,其中土壤类型是根据特征性CPT响应范围和工程判断来识别的,而不是明确的颗粒尺寸比例。总体而言,ps随深度增加而增加,而土壤变异性减小,反映了从非均质、软沉积物到更均匀和强健土壤的进展。分析主要关注两个关键特征:平均ps值和滑动窗口的中心深度,每个特征由其均值、变异系数、范围和