利用集成波长选择和化学计量建模技术,快速进行近红外光谱分析以确定生物质中的木质纤维素成分

《Microchemical Journal》:Rapid near-infrared spectroscopic determination of biomass lignocellulosic components using integrated wavelength selection and chemometric modeling

【字体: 时间:2026年02月07日 来源:Microchemical Journal 5.1

编辑推荐:

  本研究通过构建多种近红外光谱(NIRS)混合分析策略,结合波长选择算法与回归模型,解决了混合木材物种中纤维素、半纤维素和木质素成分快速、非破坏性检测的难题。结果表明,竞争自适应加权采样结合偏最小二乘回归(CARS-PLS)最佳,随机森林结合偏最小二乘回归(RF-PLS)最稳健,且模型泛化能力良好。该方法为工业木材加工中的实时质量控制提供了可靠技术。

  
赵玉林|朱英英|杨文生|赵一凡|洪宇
宁波大学海洋与交通学院,中国宁波315211

摘要

木材中木质纤维素成分的稳定性对于现代木材加工行业的过程控制、产品一致性和能源效率至关重要。然而,常规的质量控制仍然主要依赖于传统的湿化学分析方法,这些方法劳动强度高、耗时且具有破坏性,因此无法满足工业生产中对高频甚至在线监测的需求。为了解决木材木质纤维素成分复杂组成以及光谱信息严重重叠所带来的挑战,本研究系统地构建并比较了多种混合分析策略,这些策略结合了不同的波长(特征)选择算法与回归模型。通过全因子实验设计,我们不仅实现了对纤维素、半纤维素和木质素含量的高精度预测,更重要的是确定了每种成分的最佳算法组合。结果表明,竞争性自适应加权采样-偏最小二乘法(CARS-PLS)在纤维素预测方面表现最佳(R2 = 0.962,RMSE = 0.536%);随机森林-偏最小二乘法(RF-PLS)在半纤维素和木质素的预测上具有最稳健的整体性能(R2 = 0.979/0.977;RMSE = 0.131%/0.300%),其相对偏差(RPD)较高,相对均方根误差(rRMSE)较低,表明其具有很强的定量能力和较低的相对误差。总体而言,优化后的模型在测试集上表现出稳定的泛化能力。研究表明,经过系统比较和验证后,基于近红外光谱(NIRS)的化学计量模型可以实现木材木质纤维素成分的快速、无损和准确的量化。这项工作为开发适用于工业木材应用的稳健高效近红外(NIR)分析方案提供了重要的方法指导和实验依据。

引言

随着对能源安全、低碳发展和可持续性的需求增长,木质纤维素生物质作为一种关键的可再生资源,已成为替代化石燃料并促进绿色能源和高价值材料生产的重要选择。在工业实践中,混合使用多种木材物种比依赖单一专用物种更为常见。不同木材物种在解剖结构、密度、提取物含量和木质纤维素组成方面存在显著差异。这些差异会影响机械性能、加工行为和化学反应性,最终影响纸浆产量、板材粘合强度和生物质转化效率[1]、[2]。纤维素、半纤维素和木质素是木材细胞壁的主要结构成分,也是木材化学性质和能量潜力的关键指标。因此,准确量化这些成分对于分级和高效利用混合物种原料至关重要。然而,当前的质量控制仍主要依赖于传统的湿化学方法[3],这些方法劳动强度高、耗时且具有破坏性。这些限制使得它们不适用于高通量、快速检测以及日益增长的频繁或在线监测需求。开发快速、无损且准确的方法来预测混合物种系统中的纤维素、半纤维素和木质素含量,仍然是智能过程控制和提高生物质利用效率的关键挑战。
近红外光谱(NIRS)在生物质和木材分析中受到了越来越多的关注,因为它具有快速、无损和环保的优点[4]、[5]。它还被广泛用于农业和食品科学的化学表征。通过探测与C-H、O-H和N-H振动相关的 overtone 和组合带,NIRS 可以提供关于分子结构和整体组成的间接信息。当与化学计量建模结合时,它可以同时预测多种成分。先前的研究已将 NIRS 与多变量方法结合,用于估算纸浆原料、实木和木质基复合材料中的木质素和纤维素含量,从而支持质量控制和过程优化[6]、[7]、[8]、[9]、[10]。然而,大多数现有工作仅集中在单一物种或在相对受控条件下的小物种集合上。当模型扩展到跨物种应用时,光谱变异性增加,样本分布变得更加复杂,通常会降低准确性和稳健性。这突显了适当预处理、有效波长选择和处理物种间变异性的回归策略的必要性。
作为湿化学分析的无损替代方法[11],基于 NIRS 的木材分析已经从全光谱校准发展到结合预处理、波长选择和化学计量建模的集成工作流程。早期研究通常使用全光谱偏最小二乘(PLS)模型,这些模型可能会保留噪声和冗余信息,因此在物种间差异或测量变异性较大时稳定性较低[12]、[13]。后续研究表明,适当的预处理(如散点校正和导数变换)和波长选择可以显著提高预测性能。竞争性自适应加权采样(CARS)、连续投影算法(SPA)和基于树的特征选择已被广泛用于识别信息丰富的波长并减轻多重共线性[14]、[15]、[16]、[17]。同时,回归方法如 PLS、反向传播神经网络(BP)和随机森林(RF)也被探索用于捕捉光谱与成分含量之间的线性及潜在非线性关系[19]、[20]、[21]、[22]。然而,大多数研究仅检验了在单一物种或局部数据集上的有限数量的预处理-选择-建模组合。系统比较不同物种数据集上模型稳健性和泛化能力的工作仍然缺乏。如果不明确考虑物种间光谱响应的差异,为某一物种或某一成分优化的模型在转移到其他物种或成分时可能会表现不佳。
在这项研究中,选择了几种代表性的木材物种来系统评估多种 NIRS 预处理方法。特征波长选择算法(CARS、SPA 和 RF)与回归模型(PLS、RF 和 BP)结合使用,开发并比较了多种混合策略。对于纤维素、半纤维素和木质素,使用统一的混合物种数据集构建了九种模型组合,并在单物种和多物种建模场景下评估了它们的预测准确性和稳健性。通过将光谱特征与物种间的组成变化联系起来,本研究旨在建立一种快速、无损且准确的方法,用于量化混合物种系统中的木质纤维素成分。研究结果有望支持木材加工行业的实时质量评估和过程控制,并促进木质纤维素生物质在低碳能源和材料应用中的高效利用。

材料

共收集了来自中国浙江和江苏省的164个木材和废木板样本。这些样本具有高度代表性,涵盖了包括地理位置、气候条件和木材物种多样性在内的多种影响因素。采样点的空间分布见补充材料图 S1。
所有样本均经过空气干燥、研磨,并通过40目筛网过滤。所得粉末被密封在密封容器中。

结果与讨论

合理划分样本集可以确保数据分布的一致性,优化学习效率,并有助于提高模型性能、数据分析和稳健性。K-S 算法[30]基于特征空间中的欧几里得距离来衡量样本间的差异,并均匀选择样本以确保代表性。该过程首先选择彼此间距离最大的两个样本作为初始校准样本。

结论

本研究构建并比较了多种结合波长(特征)选择算法与回归模型的混合分析策略,用于快速、无损地预测木材生物质中的木质纤维素成分。为了解决多物种样本复杂组成和严重光谱重叠所带来的建模挑战,选择归一化作为最佳的光谱预处理方法。此外,采用了全因子设计来进行系统研究

CRediT 作者贡献声明

赵玉林:撰写——初稿。 朱英英:概念构思。 杨文生:验证。 赵一凡:撰写——审阅与编辑。 洪宇:撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了中国宁波市自然科学基金(项目编号2025J162)的财政支持。此外,还获得了浙江省重点研发计划(2025C02257(SD2))的额外资助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号