CM-SQL：基于跨模型一致性的文本到SQL生成框架及其在生物医学数据查询中的创新应用

生物通首页 > 今日动态 > 正文

《Neurocomputing》：CM-SQL: A cross-model consistency framework for text-to-SQL

【字体：大中小】 时间：2025年10月07日 来源：Neurocomputing 6.5

编辑推荐：

　　本文提出CM-SQL框架，通过双模型架构（LLM+微调模型）解决Text-to-SQL任务中存在的模式链接错误与模型过度自信问题，创新性地采用局部修正策略和跨模型一致性验证，在Spider和BIRD数据集上分别达到87.6%和65.65%的执行准确率，为生物医学数据库的智能查询提供新范式。

亮点

CM-SQL提出V-Schema数据库模式组织方法，通过向不同大语言模型（LLM）输入完整数据库模式（Full-Schema）和经模式链接的简化模式（Simplified-Schema），从多角度生成SQL候选查询，显著扩展候选集多样性。

方法学

算法1 CM-SQL算法

该算法通过双模型架构实现SQL生成与验证：首先利用大语言模型（LLM）的推理能力生成候选SQL，随后通过微调模型（7B参数）与LLM的交叉一致性验证机制对SQL进行分部分评估和评分。针对错误SQL，采用局部修正策略精准修改错误片段，避免正确部分被误改。

数据集

BIRD（Benchmark for Intelligent Retrieval and Database）由阿里巴巴达摩院发布，包含95个大规模真实数据库（总容量33.4GB），覆盖金融、电子商务等37个专业领域，其生物医学子集极具挑战性。Spider数据集则专注于跨领域复杂SQL查询评估。

结论与未来工作

CM-SQL框架通过融合完整模式与模式链接的优势，结合微调模型的稳定性和LLM的强大推理能力，显著提升SQL生成准确性。未来将探索该框架在生物医学知识图谱和多模态数据查询中的应用。

作者贡献声明

Xiang Li： 原始草案撰写。Jinguo You： 评审与编辑。Heng Li： 形式化分析。Jun Peng： 方法论设计。Xi Chen： 方法论设计。Ziheng Guo： 形式化分析。

利益冲突声明

作者声明以下可能构成潜在竞争利益的财务关系/个人关系：

JInguo You报告获得国家自然科学基金（62062046）和CCF-华为林荫基金的资助。其余作者声明无其他已知竞争利益。

致谢

本研究由国家自然科学基金（62062046）和CCF-华为林荫基金资助。

联系信箱：

粤ICP备09063491号

热点排行