基于DARE技术的韩语模型融合提升大语言模型推理能力研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月24日 来源：Engineering Science and Technology, an International Journal 5.1

编辑推荐：

　　研究人员针对大语言模型(LLM)在复杂推理任务中的性能瓶颈，创新性地采用Drop and Rescale(DARE)技术将韩语模型(Ko-LM)与英语LLM融合。通过六项基准测试和MT-Bench评估，发现融合后的模型在GSM8K数学推理任务中性能提升超20%，平均提升1.69%，证实韩语的语言复杂性可有效增强模型推理能力，为LLM性能优化提供了新范式。

在人工智能领域，大语言模型(LLM)虽在各类自然语言处理任务中表现卓越，但其推理能力尤其是数学推理仍存在明显短板。Open LLM Leaderboard数据显示，即便是顶尖模型在GSM8K(小学数学习题集)这类需要多步推理的任务中得分持续偏低。与此同时，训练更大规模的模型又面临数据需求庞大、计算资源消耗高等问题。这种困境促使研究者们将目光转向模型优化技术——如何通过现有模型的"强强联合"来突破性能天花板，成为亟待解决的课题。

研究人员敏锐地注意到，韩语作为一种形态丰富的语言(SOV结构)，其复杂的语法规则和高度依赖上下文的表达方式，可能蕴含着增强逻辑推理能力的独特优势。这种假设源于语言学研究发现：韩语使用者需要持续进行隐式逻辑关联才能完成基础交流，这种特性可能使韩语模型(Ko-LM)内在地具备更强的推理架构。为验证这一假设，研究团队创新性地采用Drop and Rescale(DARE)技术——通过随机丢弃和重新缩放增量参数的方式，将韩语模型与主流英语LLM进行高效融合。

这项发表于《Engineering Science and Technology, an International Journal》的研究主要运用了三大关键技术：DARE参数融合技术(随机丢弃90%增量参数后按0.25密度重缩放)、多基准测试体系(ARC/HellaSwag/MMLU等6项标准化评估)以及MT-Bench多轮对话评估框架。研究特别设计了对比实验，将韩语模型与中、日等同类语言模型的融合效果进行横向比较，并采用SOLAR 10.7B等不同架构模型验证方法的普适性。

研究结果部分呈现了系列重要发现：

密度参数优化：当DARE密度值设为0.25时，融合模型在GSM8K上的表现较基线提升20.3%，平均性能提升1.7%，证实存在最优参数配置区间。
语言特异性优势：韩语模型融合效果显著优于中文(Zh-LM)和日语(Ja-LM)模型，在MT-Bench评估中获得6.72分(调整胜率0.533)，暗示韩语结构特性对推理能力有独特增益。
技术对比：DARE以76.23平均分优于Slerp(76.16)和Breadcrumbs(76.00)，其参数稀疏化处理展现出更高知识转移效率。
跨架构验证：在SOLAR 10.7B模型上，最优密度调整为0.1时仍保持0.8%性能提升，证实方法具有模型无关性。
数据类型比较：韩语数据融合较代码数据(Code-LM)带来更均衡的提升，在MMLU等语言理解任务中避免性能衰减，实现1.28个百分点的综合优势。

讨论部分深入剖析了三个层面的科学意义：在理论层面，首次证实形态丰富语言的模型参数可有效迁移至分析语系模型；在方法学层面，DARE技术为模型融合提供了保留核心知识同时消除冗余的新范式；在应用层面，该方案仅需单张A100显卡即可完成融合，使中小机构也能参与LLM性能优化。研究同时指出，该方法在跨架构模型融合、多模态扩展等方面仍存在局限，未来需开发更通用的参数对齐技术。

这项研究为LLM性能优化开辟了新路径——不再依赖数据规模扩张或计算资源堆砌，而是通过语言模型间的"优势基因"重组来实现能力跃升。特别值得注意的是，韩语模型虽然自身在Open Ko-LLM Leaderboard表现平平(GSM8K仅30.86分)，却能显著提升英语LLM的推理能力，这种"1+1>2"的效应揭示了不同语言模型参数间存在尚未被充分发掘的协同机制。该成果不仅对自然语言处理领域有直接贡献，其揭示的模型融合规律对多模态AI、教育科技等交叉领域同样具有重要启示意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号