CM-SQL:基于跨模型一致性的文本到SQL生成框架及其在生物医学数据查询中的创新应用

【字体: 时间:2025年10月07日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出CM-SQL框架,通过双模型架构(LLM+微调模型)解决Text-to-SQL任务中存在的模式链接错误与模型过度自信问题,创新性地采用局部修正策略和跨模型一致性验证,在Spider和BIRD数据集上分别达到87.6%和65.65%的执行准确率,为生物医学数据库的智能查询提供新范式。

  
亮点
CM-SQL提出V-Schema数据库模式组织方法,通过向不同大语言模型(LLM)输入完整数据库模式(Full-Schema)和经模式链接的简化模式(Simplified-Schema),从多角度生成SQL候选查询,显著扩展候选集多样性。
方法学
算法1 CM-SQL算法
该算法通过双模型架构实现SQL生成与验证:首先利用大语言模型(LLM)的推理能力生成候选SQL,随后通过微调模型(7B参数)与LLM的交叉一致性验证机制对SQL进行分部分评估和评分。针对错误SQL,采用局部修正策略精准修改错误片段,避免正确部分被误改。
数据集
BIRD(Benchmark for Intelligent Retrieval and Database)由阿里巴巴达摩院发布,包含95个大规模真实数据库(总容量33.4GB),覆盖金融、电子商务等37个专业领域,其生物医学子集极具挑战性。Spider数据集则专注于跨领域复杂SQL查询评估。
结论与未来工作
CM-SQL框架通过融合完整模式与模式链接的优势,结合微调模型的稳定性和LLM的强大推理能力,显著提升SQL生成准确性。未来将探索该框架在生物医学知识图谱和多模态数据查询中的应用。
作者贡献声明
Xiang Li: 原始草案撰写。Jinguo You: 评审与编辑。Heng Li: 形式化分析。Jun Peng: 方法论设计。Xi Chen: 方法论设计。Ziheng Guo: 形式化分析。
利益冲突声明
作者声明以下可能构成潜在竞争利益的财务关系/个人关系:
JInguo You报告获得国家自然科学基金(62062046)和CCF-华为林荫基金的资助。其余作者声明无其他已知竞争利益。
致谢
本研究由国家自然科学基金(62062046)和CCF-华为林荫基金资助。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号