在数据融合中建模不确定性:一种知识图谱方法

《Expert Systems with Applications》:Modelling Uncertainty in Data Fusion: A knowledge Graph Approach

【字体: 时间:2026年02月07日 来源:Expert Systems with Applications 7.5

编辑推荐:

  数据融合知识图谱框架提出三层次不确定性本体实现异构不确定系统性表征与消解,结合人机协同工作流构建知识图谱并验证其高语义对齐(>0.96)和跨域性能(BERTScore 85%),用户研究显示其可靠性评估效用达4.55,优于通用大语言模型。

  
Jiaxin Du|Timothy Mugambi|Di Zhu|Braiden Betway|Nancy Odhiambo
美国密歇根州格兰德谷州立大学计算机学院,Allendale,49401

摘要

本文提出了一种新颖的数据融合知识图谱框架,用于管理不确定性并在信息融合任务中推荐数据和方法。该框架嵌入了一个三层不确定性本体,以系统地表示、传播和解决异构不确定性。该框架采用了人机交互的方法进行知识图谱构建,并通过一个基于Web的原型实现。在包含100篇研究论文的定制数据集上的实验表明,AI代理与人类专家之间存在强语义一致性(相似度>0.96),并且具有出色的跨领域性能(BERTScore为85%)。该系统表现出接近线性的可扩展性(O(n))和一致的数据提取准确性。用户研究验证了其在可靠性评估中的有效性,综合效用得分为4.55,优于通用的大型语言模型(LLM)基线。这项工作推进了基于不确定性的数据融合和知识图谱驱动的决策支持。所有数据、方法和模型权重均已公开发布,以促进可重复性和未来的研究。

引言

数据融合实践常常受到方法碎片化的阻碍,最关键的是不确定性表示和传播的不充分。这种限制可能导致分析不可靠,并导致决策不佳,从而妨碍社会有效应对环境可持续性、城市规划和公共卫生等领域的关键挑战(参见Ait Ouallane, Bakali, Bahnasse, Broumi, Talea, 2022; Kroll, Kalo, Nagel, Mennicke, Balke, 2020; Ye, Li, Das, Du, 2024a)。这些领域依赖于整合多样化数据来准确模拟现实世界的复杂性,凸显了强大数据融合的重要性。新兴的异构数据集——如实时交通传感器网络、通过社交媒体报告的公民数据以及城市环境中的超本地空气质量测量——既带来了独特的机会,也带来了严峻的挑战(Wang, Yang, Li, Chen, Hu, 2019; Ye, Lian, Xu, Du, Bao, 2024b; Zhang, Zhu, Wu, Hu, Zhang, 2021)。
现有的科学知识图谱研究主要集中在确保语义一致性和知识整合上(Kroll等人,2020年),通过提出避免合并异构科学知识时出现矛盾的机制来解决上下文兼容的信息融合问题。然而,这些方法并未对数据融合过程中产生的不同形式的不确定性进行建模,也没有提供不确定性如何在融合方法之间传播的表示。为了解决这些问题,我们的研究旨在开发一个综合的知识图谱,该图谱整合了最先进的方法论,同时明确考虑了多种来源和不同类型的不确定性。我们还引入了一种人机交互的工作流程,将基于LLM的文献分析与专家验证相结合,以提取方法论知识和相关的不确定性信息。通过这种实现,我们的工作为跨不同融合场景合成科学证据提供了结构化且实用的基础。
当前方法在整合来自这些不同来源的数据方面存在显著差距。缺乏系统化的框架来记录和比较融合技术,使得评估其性能变得困难,尤其是在处理不确定性方面。由于没有将方法与特定数据类型和应用场景联系起来的结构化方式,该领域依赖于临时性方法。这种做法阻碍了跨学科学习,阻碍了共同基准的建立,并迫使研究人员“重复发明轮子”。先前的研究已经强调了这一局限性,呼吁采用更复杂和动态的方法来适应现代数据的复杂性(Du, Ye, Jankowski, Sanchez, Mai, 2024; Longo, Brcic, Cabitza, Choi, Confalonieri, Del Ser, Guidotti, Hayashi, Herrera, Holzinger等人,2024; Shimizu, Stephen, Christou, Currier, Mahdavinejad, Norouzi, Dalal, Barua, Fisher, D’Onofrio等人,2023)。如果不加以解决,这种碎片化将持续存在,阻碍数据融合在复杂城市系统中的重大进展,并妨碍朝着更通用的AI发展,这种AI能够像人类一样在多样化和不确定的信息流中进行推理(Fei等人,2022)。
为了解决这些方法论上的差距,本研究提出了开发一个数据融合知识图谱,这是一个正式的、机器可读的框架,专门用于应对数据融合的复杂性。通过结合最先进的数据融合技术和利用大型语言模型(LLM)的人机交互工作流程,我们的方法系统地将分散的科学知识组织成结构化、机器可读的格式。这个提出的框架不仅便于比较和理解不同的融合方法,还提供了指导基于不确定性意识的数据整合的实用工具。本研究做出了三个关键贡献:
  • 1.
    不确定性感知数据融合的本体:我们提出了一个新颖的本体,系统地表示了多种类型的不确定性以及数据源、融合方法和应用场景之间的关系。
  • 2.
    人机交互的知识提取:我们开发了一种半自动化的工作流程,利用LLM和专家验证从科学文献中提取和结构化数据融合方法。
  • 3.
    交互式原型系统:我们实现了一个原型知识图谱界面,允许研究人员在实际中探索、查询和应用基于不确定性意识的数据融合策略。
  • 以下部分的结构如下:第2节介绍文献综述,第3节描述我们的方法,第4节介绍评估和结果,第5节讨论发现和结论。

    小节片段

    不确定性下的知识图谱和数据融合

    数据融合在公共卫生、金融和城市规划等领域的复杂决策中起着重要作用,其中整合异构数据对于理解相互依赖的系统和预测结果至关重要。从John Snow 1854年的霍乱地图(Snow, 2023)到早期城市资源规划中的地图叠加(Goodchild, 1991),结合互补来源长期以来一直支持系统分析。
    现代数据融合不仅限于空间数据

    方法

    本研究结合了数据融合不确定性的理论发展和关于知识图的实践应用,涵盖了三种关键方法。如图1所示,首先(3.1),开发了一个新的数据融合本体,以明确表示不确定性,这成为了知识图谱的基础结构。其次(3.2),我们改进了一种人机交互的AI方法,用于从这些文档中提取内容并将其与数据融合对齐

    本体验证

    所提出的本体开发采用了一种结构化的方法进行评估,使用protege本体推理器(https://protege.stanford.edu/))来检查类层次结构和关系中的矛盾。成功通过评估后,本体随后在后续步骤中得到了实现。
    为了评估本体在表示数据融合过程和不确定性方面的有效性,我们在注释实践中应用了它

    讨论

    我们的框架并不旨在引入一种新的算法数据融合方法;相反,它关注于知识图谱(KG)中数据融合过程的结构组织。这种方法将我们的工作置于越来越多的研究之中,这些研究表明,专门的KG在高风险领域中的表现显著优于通用的大型语言模型(LLM)。
    最近的文献强调了几个利用领域特定KG来增强检索能力的平行系统

    结论

    本研究展示了如何通过结合AI驱动和人类不确定性识别来设计明确考虑多种不确定性形式的数据融合系统。主要成果是一个汇总了多模态证据的预言数据库,同时记录了每个条目的不同不确定性水平。这一资源将成为未来处理复杂数据融合挑战的AI助手的可靠参考。
    三个技术性

    未引用的参考文献

    表A1、表A2和A.3。

    数据声明

    注释过的论文、AI生成的注释和原型系统可以通过以下链接访问:https://figshare.com/s/f8a2232a7505f5e4c563

    写作过程中生成式AI和AI辅助技术的声明

    在准备本手稿的过程中,作者使用了OpenAI的ChatGPT来辅助不确定性评估,具体细节见方法论部分。此外,还使用了人工智能工具来提高语法准确性并确保排版的正确性。作者严格审查和编辑了所有AI生成的内容,并对工作的完整性和最终版本负全责。

    CRediT作者贡献声明

    Jiaxin Du:概念化、撰写——初稿、方法论、可视化、调查。Timothy Mugambi:数据整理、调查、撰写——初稿。Di Zhu:撰写——审阅与编辑。Braiden Betway:数据整理。Nancy Odhiambo:数据整理、验证。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号