论文笔记:EMR-MERGING: Tuning-Free High-Performance Model Merging
2024 neurips
1 intro
- 随着 HuggingFace、timm  和 torchvision  等开源仓库的发展,预训练与微调模型的数量激增,这导致模型部署的存储和成本负担加重。
- 多任务学习(MTL)通过联合训练多数据集来部分缓解上述问题,但它存在以下缺陷:
- 
(i) 计算成本高;
 - 
(ii) 隐私数据限制导致数据不可获取
 
 - 
 
 - 多任务学习(MTL)通过联合训练多数据集来部分缓解上述问题,但它存在以下缺陷:
 - 
因此,近年来出现了**模型融合(model merging)**方法,试图通过权重合并的方式绕过训练过程,减少计算与数据开销,具备重要的实际意义。
 - 
一个简单的模型融合方法是对权重进行平均,但这往往会带来明显的性能下降
- 
为此,已有研究提出了三类主流融合方法:
- 
权重加权平均类(Weighted averaging):
- 
如 Fisher-Merging、RegMean
 - 
使用 Fisher 信息矩阵 或内积矩阵 预计算加权系数。
 
 - 
 - 
任务向量合成类(Task vector-based methods):
- 
如 Task Arithmetic 、Ties-Merging 、AdaMerging ;
 - 
将任务向量加和而非权重加和;
 - 
Ties-Merging 解决干扰问题,AdaMerging 自适应调整系数。
 
 - 
 - 
预处理技术类(Pre-processing)
- 
如 DARE
 - 
通过稀疏和缩放任务向量来减少干扰
 
 - 
 
 - 
 - 
尽管已有方法取得一定进展,但仍存在两大问题:
- 
(1) 合并模型与原始模型/MTL 模型之间仍存在明显性能差距
 - 
(2) 性能提升依赖于数据或训练进行调参
 
 - 
 
 - 
 - 
论文重新审视现有融合范式
- 
发现,现有方法的核心目标是:构造一个能统一处理所有任务的单一模型权重,形式如下:
 - 
 - 
但这种策略存在问题:
- 
当任务数量较多或任务难度较大时,一个统一权重难以同时逼近所有任务模型的表现;
 - 
单一参数空间模拟多任务权重是一种次优解。
 
 - 
 
 - 
 - 
——>论文提出新的融合范式:首先提取一个统一主干模型权重,然后为每个任务构造一个轻量的任务特定模块,包括掩码和缩放器。
 - 
 - 
基于上述范式,论文提出了 EMR-Merging(Elect, Mask & Rescale-Merging) 方法。
 
2 方法

3 理论分析






