MECA框架:基于定制专家网络与适配器的大语言模型模块化编辑新方法

【字体: 时间:2025年09月17日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文推荐一种创新的语言模型知识编辑框架MECA(Modular Editing via Customized Expert Networks and Adaptors),通过模块级延迟路由机制动态选择定制专家网络(SCEN)、键值检索适配器(GRACE)或混合模块处理编辑请求,在Llama2-7B/13B模型上验证显示,其在ZsRE和Hallucination数据集的知识编辑准确性与泛化能力均超越现有技术(如ROME、MEND),有效缓解灾难性遗忘问题。

  

Highlight

模型编辑

参数更新方法(Parameter updating methods)如De Cao等人训练的超网络可预测参数变化实现可控更新。MEND(Mitchell等)通过低秩分解优化微调梯度实现高效编辑。KN(Dai等)提出知识神经元概念并利用其进行精确事实知识编辑。ROME(Meng等)通过精准识别和修改关键层解决事实更新的泛化与特异性问题。

方法论

我们提出MECA模块化框架,通过模块级延迟路由选择专家基础方法、键值适配或混合策略,有效更新预训练模型并缓解灾难性遗忘。MECA通过分析查询特征在三类策略间动态选择:(1)定制专家(2)键值适配器(3)混合模式。下文将正式定义问题并详细阐述框架。

数据集与评估指标

采用零样本关系抽取(ZsRE)数据集和Hallucination数据集,分别包含200和1000次顺序编辑任务,用于评估模型编辑方法缓解幻觉的效果。参照Hartvigsen和Yao等人的处理方式,在Llama2-7B和Llama2-13B模型上训练,以准确率和困惑度作为核心评估指标。

结果与讨论

本节展示在ZsRE和Hallucination数据集上进行的知识编辑实验成果。MECA与多种最新基线方法对比显示显著优势,并通过消融研究提供了深入洞见。

结论

我们提出的MECA框架基于模块级延迟路由机制,通过动态选择定制专家、键值适配器及混合模块,有效解决了编辑特异性(局部性)与模型一致性(泛化性)之间的平衡问题,显著提升了知识编辑的鲁棒性。这种自适应机制既优化了任务特定精细化更新,又保持了跨关联变更的整体一致性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号