交互式双对比融合方法用于多视图聚类,并保留局部结构

《Neurocomputing》:Interactive dual contrastive fusion for multi-view clustering with local structure preservation

【字体: 时间:2025年10月10日 来源:Neurocomputing 6.5

编辑推荐:

  文本到SQL转换中结构差异是模型生成准确SQL的难点。本文提出CT2S框架,通过顺序一致性原理构建半结构化提示数据,将问题中提及的数据库项按顺序映射到SQL查询,有效缓解结构差异问题。实验表明,在相同参数下CT2S较基线方法性能提升超2%,且支持主流大语言模型扩展。

  
张哲|陈宇明|郭超鹏|宋杰|何光宇
东北大学软件学院,中国沈阳110169

摘要

文本到SQL(Text-to-SQL)是一项重要的任务,其目标是将非结构化的自然语言问题转换为结构化查询语言(SQL)。问题与SQL之间的显著结构差异增加了模型转换的难度。语言的序列一致性指的是尽管在语法和表达上存在差异,但所传达信息的顺序往往相似。我们认为这种一致性有助于建立问题与SQL之间的联系,并减轻结构差异对模型带来的挑战。本研究提出了一个文本到SQL框架(CT2S),该框架整合了序列一致性提示来生成SQL。具体而言,CT2S首先使用选择器来选择与问题最相关的数据库模式项,然后利用专门构建的半结构化提示数据来提高SQL生成的性能。提示数据是基于语言的序列一致性构建的,考虑了问题和SQL中模式项的顺序。它将问题、数据库模式和SQL联系起来,以减轻结构差异带来的挑战。相关的实验结果表明,所提出的框架是有效的,在Spider数据集上实现了超过2%的性能提升,并展示了显著的可扩展性。

引言

作为数据基础设施的重要组成部分,数据库为人类提供了强大的数据支持[1]、[2]、[3]。技术人员可以通过结构化查询语言(SQL)高效地查询所需数据。然而,SQL语法的复杂性增加了非技术用户的学习难度。文本到SQL框架能够有效地将自然语言问题转换为SQL[4]、[5]、[6]、[7]、[8],吸引了研究人员的广泛关注[9]、[10]、[11]。
大多数现有研究[12]、[13]、[14]、[15]、[16]通常将自然语言问题与数据库模式项结合起来指导模型生成SQL,但忽略了结构差异带来的挑战[17]。与非结构化问题相比,SQL是一种高度结构化的语言,它们之间的结构差异给模型生成正确的SQL带来了挑战。因此,创建能够弥合这一差异的提示信息变得越来越重要。然而,如何在问题、数据库模式和SQL之间构建提示信息仍然是一个未解决的挑战。
语言的序列一致性法则指的是尽管在语法和表达上存在差异,但所传达信息的顺序往往相似[18]。受到这种一致性的启发,我们假设在问题中较早提到的数据库模式项在生成的SQL中也更有可能出现较早,如图1中的上标数字所示。我们基于Spider数据集及其变体[10]、[19]、[20]、[21]设计了初步实验来验证我们的假设。结果表明,数据库模式项在问题和生成的SQL中通常以相同的顺序被提及,74%的数据集样本展示了这种顺序相似性。我们认为这种一致性可以减轻结构差异对模型带来的挑战。
本研究提出了一个文本到SQL框架(CT2S),该框架整合了序列一致性提示。具体而言,CT2S首先从数据库结构中选择与问题最相关的模式项(例如“table-column-has”和“column-same table”,如表1所示),并从语义维度出发,为提示数据的构建奠定基础。基于序列一致性法则,CT2S利用问题和相关的数据库模式项来构建半结构化提示数据。这些数据将问题中提到的数据库模式项映射到目标SQL,同时考虑了问题和SQL中模式项的顺序。最后,CT2S通过整合提示数据的指导来提高SQL生成的性能。与其他使用映射概念的研究相比,上述提示数据不仅基于映射,还将序列一致性作为增量信息整合到提示中。
本研究在Spider [19]基准数据集上进行了相关实验,结果验证了CT2S的有效性。在相同的参数规模下,CT2S的SQL生成性能提高了超过2%。同时,与基于大型语言模型(LLMs)的方法相比,CT2S也表现出较强的竞争力。此外,本研究还将主流LLMs整合到CT2S中,进一步验证了该框架的可扩展性。
我们的主要贡献如下:
  • 1).
    我们提出了一个模式项选择器。该选择器利用数据库的语义和结构信息来选择与问题相关的模式项,为提示数据的构建奠定了基础。
  • 2).
    我们提出了半结构化提示数据,以减轻结构差异对模型带来的挑战。这些提示数据包含问题中的模式项标记和相关的数据库模式项,可以依次将问题中的模式项映射到目标SQL。
  • 3).
    我们在Spider数据集上进行了实验。CT2S在相同的参数规模下取得了优异的结果。
  • 本文的其余部分组织如下。第2节回顾了文本到SQL的相关研究。第3节介绍了相关定义和初步实验。第4节描述了提出的CT2S框架。第5节展示了实验结果。第6节总结了这项研究。

    相关文献片段

    相关工作

    早期的文本到SQL研究主要针对一些简单的SQL。邓等人[21]使用字符匹配算法来获取与问题相关的模式项。郭等人[22]分别学习问题和数据库的模式项,通过编码的中间表示来解析SQL。面对多个表和复杂的SQL时,数据库的结构特征变得重要[3]。Bogin等人[23]使用图神经网络来编码数据库模式。曹等人[24]

    序列一致性

    本节定义了序列一致性,并介绍了关于序列一致性的初步实验。

    定义1 序列一致性

    在初步实验中,序列一致性被定义为问题和SQL之间模式项顺序的相似性。对于给定的数据样本,分别代表问题和SQL中提到的模式项。相似性计算为,其中表示顺序相同的模式项数量。如果,则认为该数据样本

    方法

    本节提供了所提出框架的详细描述。CT2S包括模式项选择阶段和SQL生成阶段。CT2S的总体结构如图3所示。

    实验

    本节详细描述了实验设置、基线方法的选择以及相应的实验结果。

    结论

    本研究提出了一个文本到SQL框架(CT2S),该框架整合了序列一致性提示来生成SQL。具体而言,CT2S从数据库的语义和结构维度中选择与问题相关的数据库模式项。随后,它整合基于序列一致性构建的提示数据来进一步提高SQL生成的性能。在相关实验中,CT2S展示了具有竞争力的SQL生成性能。实验结果

    CRediT作者贡献声明

    张哲:写作——审阅与编辑,写作——原始草稿,方法论。陈宇明:数据管理。郭超鹏:资金获取。宋杰:项目管理。何光宇:软件资源。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    张哲是东北大学软件学院的博士生。他的研究兴趣包括自然语言处理和机器学习。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号