
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于细粒度知识优化的迭代检索增强生成方法(IRAGKR):提升大语言模型在多跳推理中的抗噪性能
【字体: 大 中 小 】 时间:2025年09月01日 来源:Neurocomputing 6.5
编辑推荐:
本文提出创新性迭代检索增强生成框架IRAGKR(Iterative Retrieval Augmented Generation with Fine-grained Knowledge Refinement),通过动态检索门控(Dynamic Retrieval Gating)、查询语义扩展(Query Semantic Expansion)和文档信息压缩(Document Information Compression)三大模块构建知识优化闭环系统,显著降低多轮检索中的噪声干扰。实验证明其在Llama2-7?b/13?b模型上对HotpotQA等数据集的复杂问答任务具有最优性能。
Highlight
我们的IRAGKR框架巧妙整合了三大核心组件优势:多维动态控制检索时机、优化查询构建及细粒度低信息量过滤。实验证实,该框架既能通过多维数据评估"何时触发检索",又能结合查询语义扩展与文档压缩机制,显著提升知识利用效率。
Conclusions
IRAGKR通过"迭代检索+知识优化"模式在多跳推理任务中验证了其有效性。动态检索门控模块融合注意力机制、熵值计算和词性指标,精准控制检索时机;查询扩展模块基于注意力权重捕捉专业术语歧义;文档压缩模块则通过自信息量(Self-information)计算实现关键信息聚焦,形成完整的知识精馏闭环。
Limitations
当前方法尚存在两点局限:1) 无法区分事实性错误、逻辑推理错误与语义理解错误;2) 文档压缩模块采用固定压缩率,未考虑不同文本结构的动态调整需求。
Future works
后续研究将聚焦两大方向:1) 开发基于知识图谱的错误诊断框架,实现错误类型细粒度分类;2) 构建动态压缩策略,结合文本结构特征实现自适应信息过滤。
Uncited references
[28]
CRediT authorship contribution statement
康宁杜:综述撰写与编辑、资源协调、理论分析;王文宇:方法论构建、数据可视化;张本奎:基金支持、研究指导;王鹏程:实验验证;张帆:文献综述。
Declaration of competing interest
作者声明无利益冲突
Acknowledgment
本研究受国家自然科学基金(62201066)资助
Declaration of generative AI
论文撰写过程中使用Google Gemini 2.5进行语言优化,所有内容均经作者审核确认
作者简介
康宁杜,2016年获中科院电子学研究所通信与信息系统博士学位,现为北京信息科技大学电子工程学院教师,研究方向包括雷达信号处理与图像理解识别。
生物通微信公众号
知名企业招聘