基于大语言模型与检索增强生成的封闭文档库智能问答系统开发及应用研究

【字体: 时间:2025年08月07日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  这篇综述创新性地提出DaaDy(文档字典化)和SQAD(结构化问答字典)方法,结合检索增强生成(RAG)技术,构建了AIKIT开源框架(含LLM模型、向量数据库和Web界面),有效解决了大语言模型(LLM)在长文档处理中的"中间丢失"问题,为医学/航空等高风险领域提供动态知识库更新与测试题自动生成方案。

  

引言

在航空医学等高技术专业领域,从业者需要持续掌握复杂且快速更新的知识体系。传统人工维护测试题库面临巨大挑战——美国空军手册(AFMAN)等规范文件平均每季度更新15%内容,导致30%的现有测试题在6个月内失效。最新研究表明,结合检索增强生成(RAG)的大语言模型(LLM)在事实核查任务中的准确率比纯LLM提升47%,但存在文档长度超过18,000字符时上下文利用率骤降至10%的"中间丢失"现象。

材料与方法

DaaDy技术框架

针对AFMAN等结构化文档开发的解析系统,将文档转化为嵌套字典结构:顶层键为章节标题(如"1.1.3"),底层值为单句文本。通过正则表达式解析器,105,000字符的飞行手册可在2分钟内转化为包含910个节点的Sentence DaaDy,实现100%内容覆盖。

SQAD工作流程

基于DaaDy的问答生成系统,为每个句子生成问题-答案-参考(QAR)三元组。测试显示在Apple M2芯片上平均1.62秒/QAR的效率,但存在7类异常情况:无法回答(12.3%)、重复问题(8.7%)和首字母缩略词幻觉(5.1%)等。

AIKIT系统架构

容器化解决方案集成Mistral-7B和Mixtral-8x7B等LLM,支持FAISS/Chroma向量数据库。在MIT林肯实验室TX-Green系统(2×NVIDIA V100)测试中,通过--nvccli参数实现多GPU并行,查询吞吐量提升3.2倍。

结果

文档覆盖分析

6份测试文档显示:当文档超过20,000字符时,传统RAG仅能利用首尾10%内容(图4)。DaaDy使50,000字符手册的QAR生成量从83跃升至910,但专家评估发现29.5%的QAR需要人工修正。

测试题评估试验

对比全文档与局部上下文查询:答案存在时全文档准确率72.7% vs 局部64%;答案缺失时全文档错误率44.4% vs 局部11.8%。模糊问题处理中,局部上下文能100%识别信息不足情况。

讨论

优化上下文窗口

研究发现1,000-2,000字符是理想上下文长度。将DaaDy的基元从单句扩展至连贯段落,可使异常QAR减少40%同时保持95%+覆盖率。

安全部署方案

AIKIT的离线特性使其可通过Singularity容器部署在安全网络,已在美国空军某战斗机中队试点,成功将法规更新到测试题的周转时间从72小时缩短至4小时。

未来方向

计划研究动态上下文窗口算法,平衡"中间丢失"与"碎片化效应"。AIKIT将扩展支持DICOM医学影像解析,并探索在FDA 21 CFR Part 11合规环境的应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号