CM-SQL:基于跨模型一致性的文本到SQL生成框架及其在生物医学数据查询中的创新应用
【字体:
大
中
小
】
时间:2025年10月07日
来源:Neurocomputing 6.5
编辑推荐:
本文提出CM-SQL框架,通过双模型架构(LLM+微调模型)解决Text-to-SQL任务中存在的模式链接错误与模型过度自信问题,创新性地采用局部修正策略和跨模型一致性验证,在Spider和BIRD数据集上分别达到87.6%和65.65%的执行准确率,为生物医学数据库的智能查询提供新范式。
CM-SQL提出V-Schema数据库模式组织方法,通过向不同大语言模型(LLM)输入完整数据库模式(Full-Schema)和经模式链接的简化模式(Simplified-Schema),从多角度生成SQL候选查询,显著扩展候选集多样性。
该算法通过双模型架构实现SQL生成与验证:首先利用大语言模型(LLM)的推理能力生成候选SQL,随后通过微调模型(7B参数)与LLM的交叉一致性验证机制对SQL进行分部分评估和评分。针对错误SQL,采用局部修正策略精准修改错误片段,避免正确部分被误改。
BIRD(Benchmark for Intelligent Retrieval and Database)由阿里巴巴达摩院发布,包含95个大规模真实数据库(总容量33.4GB),覆盖金融、电子商务等37个专业领域,其生物医学子集极具挑战性。Spider数据集则专注于跨领域复杂SQL查询评估。
CM-SQL框架通过融合完整模式与模式链接的优势,结合微调模型的稳定性和LLM的强大推理能力,显著提升SQL生成准确性。未来将探索该框架在生物医学知识图谱和多模态数据查询中的应用。
Xiang Li: 原始草案撰写。Jinguo You: 评审与编辑。Heng Li: 形式化分析。Jun Peng: 方法论设计。Xi Chen: 方法论设计。Ziheng Guo: 形式化分析。
作者声明以下可能构成潜在竞争利益的财务关系/个人关系:
JInguo You报告获得国家自然科学基金(62062046)和CCF-华为林荫基金的资助。其余作者声明无其他已知竞争利益。
本研究由国家自然科学基金(62062046)和CCF-华为林荫基金资助。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号