数据融合实践常常受到方法碎片化的阻碍,最关键的是不确定性表示和传播的不充分。这种限制可能导致分析不可靠,并导致决策不佳,从而妨碍社会有效应对环境可持续性、城市规划和公共卫生等领域的关键挑战(参见Ait Ouallane, Bakali, Bahnasse, Broumi, Talea, 2022; Kroll, Kalo, Nagel, Mennicke, Balke, 2020; Ye, Li, Das, Du, 2024a)。这些领域依赖于整合多样化数据来准确模拟现实世界的复杂性,凸显了强大数据融合的重要性。新兴的异构数据集——如实时交通传感器网络、通过社交媒体报告的公民数据以及城市环境中的超本地空气质量测量——既带来了独特的机会,也带来了严峻的挑战(Wang, Yang, Li, Chen, Hu, 2019; Ye, Lian, Xu, Du, Bao, 2024b; Zhang, Zhu, Wu, Hu, Zhang, 2021)。
现有的科学知识图谱研究主要集中在确保语义一致性和知识整合上(Kroll等人,2020年),通过提出避免合并异构科学知识时出现矛盾的机制来解决上下文兼容的信息融合问题。然而,这些方法并未对数据融合过程中产生的不同形式的不确定性进行建模,也没有提供不确定性如何在融合方法之间传播的表示。为了解决这些问题,我们的研究旨在开发一个综合的知识图谱,该图谱整合了最先进的方法论,同时明确考虑了多种来源和不同类型的不确定性。我们还引入了一种人机交互的工作流程,将基于LLM的文献分析与专家验证相结合,以提取方法论知识和相关的不确定性信息。通过这种实现,我们的工作为跨不同融合场景合成科学证据提供了结构化且实用的基础。
当前方法在整合来自这些不同来源的数据方面存在显著差距。缺乏系统化的框架来记录和比较融合技术,使得评估其性能变得困难,尤其是在处理不确定性方面。由于没有将方法与特定数据类型和应用场景联系起来的结构化方式,该领域依赖于临时性方法。这种做法阻碍了跨学科学习,阻碍了共同基准的建立,并迫使研究人员“重复发明轮子”。先前的研究已经强调了这一局限性,呼吁采用更复杂和动态的方法来适应现代数据的复杂性(Du, Ye, Jankowski, Sanchez, Mai, 2024; Longo, Brcic, Cabitza, Choi, Confalonieri, Del Ser, Guidotti, Hayashi, Herrera, Holzinger等人,2024; Shimizu, Stephen, Christou, Currier, Mahdavinejad, Norouzi, Dalal, Barua, Fisher, D’Onofrio等人,2023)。如果不加以解决,这种碎片化将持续存在,阻碍数据融合在复杂城市系统中的重大进展,并妨碍朝着更通用的AI发展,这种AI能够像人类一样在多样化和不确定的信息流中进行推理(Fei等人,2022)。
为了解决这些方法论上的差距,本研究提出了开发一个
数据融合知识图谱,这是一个正式的、机器可读的框架,专门用于应对数据融合的复杂性。通过结合最先进的数据融合技术和利用大型语言模型(LLM)的人机交互工作流程,我们的方法系统地将分散的科学知识组织成结构化、机器可读的格式。这个提出的框架不仅便于比较和理解不同的融合方法,还提供了指导基于不确定性意识的数据整合的实用工具。本研究做出了三个关键贡献:
1.不确定性感知数据融合的本体:我们提出了一个新颖的本体,系统地表示了多种类型的不确定性以及数据源、融合方法和应用场景之间的关系。
2.人机交互的知识提取:我们开发了一种半自动化的工作流程,利用LLM和专家验证从科学文献中提取和结构化数据融合方法。
3.交互式原型系统:我们实现了一个原型知识图谱界面,允许研究人员在实际中探索、查询和应用基于不确定性意识的数据融合策略。
以下部分的结构如下:第2节介绍文献综述,第3节描述我们的方法,第4节介绍评估和结果,第5节讨论发现和结论。