综述:化学加工行业中异构信息源的数据融合
《Journal of Chemometrics》:Data Fusion: Integrating Heterogeneous Information Sources in the Chemical Processing Industry
【字体:
大
中
小
】
时间:2025年10月25日
来源:Journal of Chemometrics 2.1
编辑推荐:
本文系统回顾了数据融合(Data Fusion)技术在化学加工行业(CPI)中的应用,重点阐述了如何通过整合多源异构数据(如传感器读数、过程分析技术(PAT)和软测量等)来提升信息质量(IQ),从而为过程监控、故障诊断和优化决策提供更全面、准确和具有洞察力的分析。文章为工程师和数据分析师提供了方法分类、实际案例以及未来挑战的深入视角。
工业数据在过程与产品的开发、管理和优化中始终扮演着关键角色。随着时间推移,数据的内在特性(模态、采集频率、粒度、不确定性等)以及处理和集成它们的计算方法与技术都发生了显著演变。通过整合多个异构数据源,数据融合能够提供更新的、更完善的运营状态,提升信息质量,从而对被测系统进行更全面、准确和深入的分析,并最终实现更好的决策。本文从从业者(包括工程师和数据分析师)的视角,回顾了数据融合方法学,并探讨了如何将其系统性地组织成致力于实现特定目标的类别。同时,文章还讨论并澄清了该领域中并非总是一致且无歧义使用的术语。此外,还提供了若干案例研究,以展示采用数据融合框架的应用和潜在优势。
第四次工业革命加速了智能生产概念的普及,将其从离散制造和装配系统扩展到包括化学加工行业在内的各个领域。作为CPI中智能处理的关键推动者,工厂数字化正在改变工业中数据驱动决策的格局。化学过程和产品的管理一直依赖于数据的可用性,而新的以数据为中心的技术范式有潜力彻底改变这些高级任务的执行方式。通过整合价值链中不同来源的数据,只要配备适当的工具来处理现代传感技术的异构性并将其转化为有价值的见解,就能建立起高质量的过程状态图像。
现代工业目前拥有广泛的传感器技术,可洞察物理化学现象、设备状态、工艺条件、原材料、产品质量、排放、物流等多个方面。数据环境正变得越来越丰富,具有不同的来源、格式和结构。现代场景通常涉及这些来源的组合,通常被称为多模态。然而,多模态虽然是重大挑战,但并非CPI数据异构性的唯一来源。其他挑战还包括多重数据采集速率、异步测量、时间和空间粒度的差异以及测量质量的差异等。
除了数据相关的挑战,工业环境本身具有固有的复杂性和多尺度性。这些过程可能表现出非线性行为、非平稳性和内在变异性,需要详细的描述以实现稳定、安全和优化的操作。结合上述数据挑战,CPI过程的这些固有特性凸显了开发系统性方法以整合和利用所有潜在有用信息源的重要性。
总之,数据源通常表现出复杂、多模态和异构的特性。这些源通常通过“分而治之”的方法来处理,即每种模态使用专用的单源方法单独处理。然而,在多个领域,已经开发出多源方法来应对概念上相似的挑战。数据融合在这一范围内应运而生,并有潜力以一致和系统的方式统一不同的视角和贡献,以协同组合不同来源的数据。
数据融合专注于有效组合、集成、关联或聚合来自多个源的数据。其主要目标是改善对感兴趣对象(无论是过程还是产品)的理解,本质上是通过提升从数据推断出的信息质量来提高系统性能。虽然数据融合自20世纪80年代以来一直是多个领域活跃的研究主题,但工业4.0和智能制造倡议创造了大量存在多模态和异构数据源的新情境。这些情境是将数据融合技术扩展到其原生领域之外并使其适应CPI背景的机会,而在CPI中数据融合在很大程度上仍未得到充分探索。
数据融合汇集了可能根据使用语境(特别是其所指的科学领域)而具有不同含义的概念。数据融合是一个跨越40多年活动的研究领域,但其仍然具有相关性、时效性和活力。其核心是利用各种信息源生成关于目标量、事件或情境的新颖或精炼见解。数据融合概念的定义随着时间的推移而演变,反映了融合方法论的日益复杂化以及数据融合超越其军事起源的扩展。
随着传感技术的显著扩展,目前可用的传感设备范围广泛,从传统的物理传感器到能够捕获结构化数据阵列的更复杂传感器。除了物理传感器之外,计量领域还丰富了新型传感器,特别是软传感器。考虑到概念上的演变,本文采用以下数据融合定义:数据融合包含了一系列方法论,它们协同地组合来自不同源的信息。广义上说,最终目标是获得更高的准确性、完整性,和/或实现对特定系统的新见解。
数据融合的一个显著方面是追求提升信息质量。增强的信息质量能带来更直接和有效的决策过程。信息质量是一个基础概念,应指导不同抽象层次上数据融合算法的设计。此外,在采用的信息质量视角下,仅仅将来自多个源的数据拼接在一起本身并不构成数据融合。要使一种方法有资格成为数据融合,其输出必须能够证明至少提升了信息质量的某个方面。
数据融合提供了几个显著提升数据驱动任务结果质量的益处。研究表明,与孤立使用单个源相比,数据融合通常能提高分类和预测的准确性。然而,数据融合也可能带来一些实施挑战,例如需要数据融合技能和专家知识,以及可能因方法过于复杂而导致解释困难或计算超载。
数据融合代表了一个多学科领域,包含了多年来开发和应用的各种融合技术。方法的多样性可以通过其应用的大量场景以及缺乏普遍最优的算法或方法论来解释。解决方案必须根据具体情况逐个开发。数据融合方法的广泛多样性对提出清晰、客观和有用的分类方案提出了相当大的挑战。
Durrant-Whyte提出的分类考虑了待融合源所收集信息之间的关系。根据这种表示,可以识别出源之间关于它们所传递信息的三种关系类别:竞争性或冗余性、互补性、协作性。
Luo等人提出了基于抽象层次概念的多传感器技术分类。对抽象层次的解释因领域而异,但通常涉及数据处理层次结构中的某种定位。根据输入数据要抽象的类型,融合技术可以分为:信号级、像素级、特征级、符号级。Castanedo对此进行了回顾和完善,提出了四种抽象层次类型:低层融合、中层融合、高层融合、多级融合。
Dasarathy提出的分类法基于其输入和输出的性质来系统化融合算法。该分类法包括:数据输入-数据输出(DAI-DAO)、数据输入-特征输出(DAI-FEO)、数据输入-决策输出(DAI-DEO)、特征输入-特征输出(FEI-FEO)、特征输入-决策输出(FEI-DEO)、决策输入-决策输出(DEI-DEO)。
在设计融合方法时,一个关键问题是融合节点和数据流的组织。架构标准与融合节点之间以及融合节点与源之间的关系有关。融合架构的类别包括:集中式(或单细胞融合)、分散式、分层式、并行融合、串行式、迭代式。
本节概述了用于数据融合的方法论。该领域包含了多种对融合过程进行分类的观点。例如,Grandin将其系统化为三个主要类别:关联、回归和分类(或识别)。在某些特定背景下,分类通常被视为估计的一种特殊情况。这种观点允许一个简化的分类法,将融合任务合并为两个核心功能:关联和估计。在此基础上,我们提出了一个细化的概念框架,明确地将机制性融合算法与更高层次的认知推理过程分离开来。这种区分产生了一个更精细的三个基本任务组:数据关联、融合、决策制定。
数据关联问题涉及确定哪些数据点属于某个特定实体或系统。这可以使用聚类方法来解决。聚类本质上是将一组物理或抽象对象分类为具有相似属性的组的过程。关联模型可以通过几类聚类方法来实现:划分方法、层次方法、基于密度的方法、基于网格的方法。
估计问题通常使用监督学习方法来解决。融合节点方法的主要目标是尽可能准确地了解分析目标的状态。状态向量可能包含浓度、温度、流量、位置、速度、大小等参数。文献中与估计问题相关的融合方法可以根据其概念或理论起源分为六类:统计学习方法、深度学习/浅层学习方法、基于信念和概率的方法、多块方法、专家系统、基础模型。
数据融合的最终目标是改进决策制定。在经典文献中,用于决策制定的数据融合框架通常简称为融合模型。术语“模型”在此上下文中意指认知模型,本质上是知识或知识处理的表示。决策支持的融合框架是来自心理学、知识表示、人工智能、数理逻辑和信号处理等多个领域的概念和方法的结合。
数据融合突破了单源处理的限制和约束,克服了基于“数据孤岛”的思维,转向源的协同整合。由于前述的相关优势,融合系统逐渐吸引了不同领域的兴趣并获得了发展势头。在化学工程中,应用可以追溯到20世纪90年代末,该领域仍在不断发展,新的应用充分利用了现代传感技术、数据收集器和计算资源。广泛的应用领域,加上数据科学和人工智能在工业中的日益普及,强调了数据融合作为一个相关研究主题的重要性。
本案例涉及一个化学生产过程的精炼部分,包含两个板式蒸馏塔。数据收集涵盖了多种测量源。主要关注点在于质量输出(目标响应),即两种杂质的浓度。这些浓度由两个传感器监测:一个在线分析仪(每小时采样一次)和一个在本地工厂实验室每12小时进行一次的气相色谱分析。
Sansana等人开发并评估了两种数据融合方案,用于整合三个来源的信息:一个数据驱动的动态软传感器、在线分析仪和气相色谱。结果表明,两种方案都能有效管理异步采样速率和处理故障测量,从而减少误报和漏识别。两种融合方法产生的最终信号都优于单个测量源,具有降低的噪声和增强的鲁棒性。
5.2 案例研究2:用于改善污水处理厂管理的多源多模态数据融合
Strelet等人报告的案例研究涉及一个工业污水处理厂。毒素如果以高浓度存在于工业废水中并通过排放到生活环境,可能对生态系统造成严重损害。污水处理厂的主要目标是处理工业废水,使有害化合物浓度低于既定的环境保护署阈值。污水处理厂运营中的挑战源于生物过程的复杂、非线性和非平稳性以及收集数据的异构性。
该数据集包含多模态数据,包括图像、过程传感器读数和实验室测量值。挑战来自于这些数据源之间的结构异质性、不同的时间分辨率和质量差异。这项工作的目标是开发一个预测性多模态工具,用于利用每个时刻可用的最新信息来估计毒素水平。评估估计性能表明,多源方法优于单源方法。融合不同源信息的能力,特别是通过拼接和贝叶斯融合方法,是实现目标属性准确估计的关键。
分析数据融合领域的现有文献,可以观察到主流研究重点在于将不确定性或信念度量恰当地纳入为不同目的开发的融合方法中。然而,这种关注往往无意中回避了数据融合中更广泛、更全面的信息质量概念。此外,并不存在一种在任何情况下都是最优的通用解决方案。工业过程的固有特性需要量身定制的、逐个案例的分析方法。
尽管有大量丰富的关于数据融合的文献,但一些方面仍未得到充分探索,这些空白如果在未来的工作中得到解决,有潜力显著影响和推动该领域的发展。它们源于工业4.0和5.0展开过程中技术的近期进展。包括:工业背景下数据融合开发的系统化方法、信息质量追踪、专家知识整合、基础模型。
数据融合领域自20世纪80年代以来见证了实质性增长,开发了众多方法和新概念,涵盖了不同的抽象层次和应用领域。鉴于其广泛的重要性,迫切需要对这些概念和方法论进行全面的系统化。
在当前的技术背景下,数据融合可以扮演重要角色,与其他专注于利用工业环境中丰富数据资源的AI/ML数据驱动方法并肩。其主要目标是组合不同的数据源,提升信息质量,并实现及时和知情的决策,以推动高效、安全和优化的运营。数据质量在数据融合中起着关键作用,因为融合结果的质量关键取决于输入流的质量。
尽管已经探索了许多融合方法,并且解决了一些挑战,但该领域仍然存在发展的机会。这些包括对数据融合开发系统化方法的需求、全面的信息质量评估框架及其与融合方法论的无缝集成、专家知识和人工生成数据的有效整合,以及探索基础模型作为融合模型。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号