通过语言序列一致性提升文本到SQL的生成效果
《Neurocomputing》:Enhancing Text-to-SQL generation with language sequential consistency
【字体:
大
中
小
】
时间:2025年10月10日
来源:Neurocomputing 6.5
编辑推荐:
该研究提出基于语言顺序一致性的Text-to-SQL框架CT2S,通过选择相关数据库模式项并构建半结构化提示数据,有效缓解自然语言与SQL的结构差异问题,实验表明其性能提升超过2%。
张哲|陈玉明|郭超鹏|宋杰|何光宇
东北大学软件学院,中国沈阳110169
摘要
文本到SQL(Text-to-SQL)是一项重要的任务,其目标是将非结构化的自然语言问题转换为结构化查询语言(SQL)。问题与SQL之间的显著结构差异增加了模型转换的难度。语言的序列一致性指的是尽管在语法和表达上存在差异,但所传达信息的顺序往往相似。我们认为这种一致性有助于建立问题与SQL之间的联系,并减轻结构差异对模型带来的挑战。本研究提出了一个文本到SQL框架(CT2S),该框架整合了序列一致性提示来生成SQL。具体而言,CT2S首先使用选择器来选择与问题最相关的数据库模式项,然后利用专门构建的半结构化提示数据来提高SQL生成的性能。这些提示数据是基于语言的序列一致性构建的,考虑了问题和SQL中模式项的顺序。它将问题、数据库模式和SQL联系起来,以减轻结构差异带来的挑战。相关的实验结果表明,所提出的框架是有效的,在Spider数据集上实现了超过2%的性能提升,并表现出显著的可扩展性。
引言
作为数据基础设施的重要组成部分,数据库为人类提供了强大的数据支持[1]、[2]、[3]。技术人员可以通过结构化查询语言(SQL)高效地查询所需数据。然而,SQL语法的复杂性增加了非技术用户的学习难度。文本到SQL框架能够有效地将自然语言问题转换为SQL[4]、[5]、[6]、[7]、[8],引起了研究人员的广泛关注[9]、[10]、[11]。
大多数现有的研究[12]、[13]、[14]、[15]、[16]通常将自然语言问题与数据库模式项结合起来指导模型生成SQL,但忽略了结构差异带来的挑战[17]。与非结构化问题相比,SQL是一种高度结构化的语言,它们之间的结构差异给模型生成正确的SQL带来了挑战。因此,创建能够弥合这一差异的提示信息变得越来越重要。然而,如何在问题、数据库模式和SQL之间构建提示信息仍然是一个未解决的挑战。
语言的序列一致性法则指的是尽管在语法和表达上存在差异,但所传达信息的顺序往往相似[18]。受到这种一致性的启发,我们假设在问题中较早提到的数据库模式项更有可能在生成的SQL中出现得更早,如图1中的上标数字所示。我们基于Spider数据集及其变体[10]、[19]、[20]、[21]设计了初步实验来验证我们的假设。结果表明,数据库模式项在问题和生成的SQL中通常以相同的顺序出现,74%的数据集样本表现出这种顺序相似性。我们认为这种一致性可以减轻结构差异对模型带来的挑战。
本研究提出了一个文本到SQL框架(CT2S),该框架整合了序列一致性提示。具体而言,CT2S首先从数据库结构中选择与问题最相关的模式项(例如“表-列-有”和“列-相同表”,如表1所示),然后利用语义维度来构建提示数据。这些数据将问题中提到的数据库模式项映射到目标SQL,同时考虑了问题和SQL中模式项的顺序。最后,CT2S通过整合提示数据的指导来提高SQL生成的性能。与其他使用映射概念的研究相比,上述提示数据不仅基于映射,还将序列一致性作为增量信息整合到提示中。
本研究在Spider[19]基准数据集上进行了相关实验,结果验证了CT2S的有效性。在相同的参数规模下,CT2S在SQL生成性能上实现了超过2%的提升。同时,与基于大型语言模型(LLMs)的方法相比,CT2S也表现出强大的竞争力。此外,本研究还将主流的LLMs整合到CT2S中,进一步验证了该框架的可扩展性。
我们的主要贡献如下:
- 1).
我们提出了一个模式项选择器。该选择器利用数据库的语义和结构信息来选择与问题相关的模式项,为提示数据的构建奠定了基础。
- 2).
我们提出了半结构化提示数据,以减轻结构差异对模型带来的挑战。这些提示数据包括问题中的模式项标记和相关的数据库模式项,可以依次将问题中的模式项映射到目标SQL。
- 3).
我们在Spider数据集上进行了实验。CT2S在相同的参数规模下取得了优异的结果。
本文的其余部分组织如下。第2节回顾了文本到SQL的相关研究。第3节介绍了相关定义和初步实验。第4节描述了所提出的CT2S框架。第5节展示了实验结果。第6节总结了本研究。
相关文献
相关工作
早期的文本到SQL研究主要针对一些简单的SQL。Deng等人[21]使用字符匹配算法来获取与问题相关的模式项。Guo等人[22]分别学习问题和数据库的模式项,通过编码的中间表示来解析SQL。面对多个表和复杂的SQL时,数据库的结构特征变得重要[3]。Bogin等人[23]使用图神经网络来编码数据库模式。Cao等人[24]
序列一致性
本节定义了序列一致性,并介绍了关于序列一致性的初步实验。
定义1 序列一致性
在初步实验中,序列一致性被定义为问题和SQL之间模式项顺序的相似性。对于给定的数据样本,和分别代表问题和SQL中提到的模式项。相似性计算为,其中表示顺序相同的模式项数量。如果,则认为该数据样本具有
方法
本节提供了所提出框架的详细描述。CT2S包括模式项选择阶段和SQL生成阶段。CT2S的整体结构如图3所示。
实验
本节提供了实验设置的详细描述、基线方法的选择以及相应的实验结果。
结论
本研究提出了一个文本到SQL框架(CT2S),该框架整合了序列一致性提示来生成SQL。具体而言,CT2S从数据库的语义和结构维度中选择与问题相关的数据库模式项。随后,它整合基于序列一致性构建的提示数据来进一步提高SQL生成的性能。在相关实验中,CT2S展示了具有竞争力的SQL生成性能。实验结果
CRediT作者贡献声明
张哲:撰写 – 审稿与编辑,撰写 – 原始草稿,方法论。陈玉明:数据整理。郭超鹏:资金获取。宋杰:项目管理。何光宇:软件与资源。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
张哲是东北大学软件学院的博士生。他的研究兴趣包括自然语言处理和机器学习。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号