首页 > 业界 > 关键词  > 模型最新资讯  > 正文

智源等机构发布LM-Cocktail模型治理策略 低成本高性能

2023-12-11 13:58 · 稿源:站长之家

要点:

  • 大语言模型(LLM)微调通常导致在目标任务上性能提高,但通用能力下降,而开源社区中存在多个模型,选择和管理成为问题。

  • 智源研究院发布的LM-Cocktail策略通过融合多个模型,计算不同模型的重要性,实现在目标任务上提升性能的同时保持通用能力。

  • LM-Cocktail通过手动或自动计算加权权重融合模型,实验证明在目标任务上维持竞争力的同时提高通用性能,适用于无法微调的场景。

站长之家(ChinaZ.com)12月11日 消息:随着大模型技术的发展,模型治理成为关注焦点。研究者在微调大语言模型时,往往面临性能提高与通用能力下降的问题。智源研究院提出LM-Cocktail模型治理策略,通过融合多个模型,计算不同模型的重要性,并在目标任务上提升性能的同时保持通用能力。这一策略不仅能手动选择模型配比,还能通过极少量样例自动计算加权权重,使模型在不重新训练的情况下融合优势。

image.png

项目地址:https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail

实验结果表明,LM-Cocktail能够在目标任务上提高准确度,同时保持通用性能。对于无法微调的场景,LM-Cocktail通过混合已有模型,实现了新任务上的性能提升,避免了对大量数据和计算资源的需求。LM-Cocktail的灵活性和高效性为大模型开发者提供了一种低成本持续提升模型性能的途径。

这一模型治理策略的创新之处在于其核心思想是将微调后的模型与其他模型的参数融合,通过加权求和整合各模型的优点,实现在特定任务上的性能提升,同时保持通用性能。LM-Cocktail通过计算融合比例,进一步融合其他微调模型,进一步提升通用性能。

该策略的应用不仅限于微调,对于缺乏目标任务标签数据或计算资源的开发者,LM-Cocktail通过构造极少量的数据样例融合社区中已有的大语言模型,生成适用于新任务的模型,提高了目标任务的准确度,同时无需进行繁重的模型训练。LM-Cocktail的实用性体现在其对于数据和资源的限制下,仍能有效提升模型性能。

LM-Cocktail模型治理策略为大模型开发者提供了一种灵活而高效的选择,通过巧妙融合现有模型,解决了在模型治理中的挑战,为模型性能提升提供了低成本、可行的途径。

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词:

热文

  • 3 天
  • 7天