首页 > 业界 > 关键词  > 模型最新资讯  > 正文

智源等机构发布LM-Cocktail模型治理策略 低成本高性能

2023-12-11 13:58 · 稿源:站长之家

要点:

  • 大语言模型(LLM)微调通常导致在目标任务上性能提高,但通用能力下降,而开源社区中存在多个模型,选择和管理成为问题。

  • 智源研究院发布的LM-Cocktail策略通过融合多个模型,计算不同模型的重要性,实现在目标任务上提升性能的同时保持通用能力。

  • LM-Cocktail通过手动或自动计算加权权重融合模型,实验证明在目标任务上维持竞争力的同时提高通用性能,适用于无法微调的场景。

站长之家(ChinaZ.com)12月11日 消息:随着大模型技术的发展,模型治理成为关注焦点。研究者在微调大语言模型时,往往面临性能提高与通用能力下降的问题。智源研究院提出LM-Cocktail模型治理策略,通过融合多个模型,计算不同模型的重要性,并在目标任务上提升性能的同时保持通用能力。这一策略不仅能手动选择模型配比,还能通过极少量样例自动计算加权权重,使模型在不重新训练的情况下融合优势。

image.png

项目地址:https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail

实验结果表明,LM-Cocktail能够在目标任务上提高准确度,同时保持通用性能。对于无法微调的场景,LM-Cocktail通过混合已有模型,实现了新任务上的性能提升,避免了对大量数据和计算资源的需求。LM-Cocktail的灵活性和高效性为大模型开发者提供了一种低成本持续提升模型性能的途径。

这一模型治理策略的创新之处在于其核心思想是将微调后的模型与其他模型的参数融合,通过加权求和整合各模型的优点,实现在特定任务上的性能提升,同时保持通用性能。LM-Cocktail通过计算融合比例,进一步融合其他微调模型,进一步提升通用性能。

该策略的应用不仅限于微调,对于缺乏目标任务标签数据或计算资源的开发者,LM-Cocktail通过构造极少量的数据样例融合社区中已有的大语言模型,生成适用于新任务的模型,提高了目标任务的准确度,同时无需进行繁重的模型训练。LM-Cocktail的实用性体现在其对于数据和资源的限制下,仍能有效提升模型性能。

LM-Cocktail模型治理策略为大模型开发者提供了一种灵活而高效的选择,通过巧妙融合现有模型,解决了在模型治理中的挑战,为模型性能提升提供了低成本、可行的途径。

举报

  • 相关推荐
  • 有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型

    网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行,在多项数学推理任务中性能超越更大规模的通用模型,高考数学题测试得分达98.5分。其训练成本仅2.6万美元,推理性能是DeepSeek+R1的15倍,服务成本低至每百万token0.15美元,大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�

  • 腾讯云TencentOS Server AI,助力荣耀打造高性能AI底座

    随着生成式AI技术爆发式增长,AI大模型开始渗透至手机领域。荣耀基于腾讯云TencentOS Server AI的TACO-LLM加速模块部署DeepSeek-R1等开源大模型,在内部场景应用中实现稳定性、可靠性和推理性能的大幅提升。测试显示,使用TACO-LLM后,首Token延迟最高降低6.25倍,吞吐提升2倍,端到端延迟降低100%。TACO-LLM通过投机采样技术实现大模型"并行"解码,从根本上解决计算密度问题,大幅提升解码效率。荣耀表示该方案打造了高性能AI底座,提供高吞吐低延迟的优化方案,能无缝整合现有大模型部署方案。腾讯云TACO-LLM针对企业级AI模型私有化部署挑战,专门优化了大语言模型内核运行效率。

  • 低成本、高速度、1080p高清 可灵2.1打造视频大模型新标杆

    快手可灵AI推出全新2.1系列视频生成模型,包含标准版(720p)和高品质版(1080p),主打高性价比与高效生成。大师版则提供更卓越的运动表现和语义响应,分辨率提升至1080p。新模型在成本控制方面优势明显,5秒视频生成仅需20-35灵感值,速度不到1分钟,处于行业领先水平。模型质量全面提升,动态细节更丰富、物理模拟更真实、提示词响应更精准。目前可灵AI全球用户突破2200万,累计生成超1.68亿视频,商业化进程加速,2025年Q1营收超1.5亿元。新系列将满足从短视频创作到专业影视制作的多场景需求。

  • 上海飞络|AI Agent驱动企业MSS安全运营变革 ---构建高效低成本防护体系

    在数字化转型浪潮中,企业面临指数级增长的网络威胁。上海飞络信息科技的Synergy AI产品通过AI+Agent技术重塑安全防护格局:1)统一告警分析:整合多元设备告警,精准识别APT攻击等高级威胁;2)智能设备调度:自动协调防火墙、WAF等设备应对DDoS攻击;3)实时威胁阻断:秒级隔离受感染终端,防止数据泄露。该方案使金融企业平均响应时间大幅缩短,显著降低数据泄露风险。未来将持续优化预测能力,实现主动防御,为企业构建高效智能的托管安全服务体系。

  • AICosts.ai深度评测:一站式AI成本管理解决方案

    随着ChatGPT等大模型的爆发式发展,企业AI支出正成为新的财务黑洞。AICosts.ai应运而生,这款专为AI密集型团队设计的成本管理平台,能聚合所有AI服务商的账单数据,提供可视化分析和优化建议。核心解决三大痛点:1)碎片化账单管理;2)异常监控;3)跨平台优化。通过实时仪表盘、多维筛选和预算预警等功能,某客户使用三个月后总支出降低28%。专业版定价49.99美元/月,特别适合月AI支出超1000美元的团队和使用多个AI服务的开发者。平台计划Q3推出Slack/Teams实时通知和AI优化方案自动生成功能。

  • 苹果macOS 26 Tahoe发布:全新玻璃风格 顶栏全透明设计

    据媒体报道,在备受瞩目的WWDC25开发者大会上,苹果正式揭晓了新一代操作系统:macOS 26 Tahoe。此次更新带来了从视觉焕新到功能强化的全方位升级。 macOS 26 Tahoe采用了全新的玻璃质感设计语言,覆盖了Dock栏、应用图标乃至桌面小部件。原生应用界面深度融入了这一风格,顶栏实现全透明化,营造出通透灵动的整体观感。用户还能自定义系统文件夹的配色方案,个性化体验得�

  • 麻省理工研发高性能乒乓球机器人系统:击球成功率达88%

    ,麻省理工学院仿生机器人实验室近日在动态操控领域取得重大突破,其研发的乒乓球机器人系统展现出接近人类水平的精准击球能力。 该研究团队由肯德里克坎西奥和大卫阮领衔,他们开发的系统完美融合了机械臂硬件创新与先进控制算法。系统采用实验室自主研发的高性能人形机械臂,凭借其高扭矩、低惯性的特性,能够实现毫秒级的快速响应。 在算法层面,研究团队�

  • 阿里巴巴发布全球首个胃癌影像筛查AI模型:CT就能识别早期胃癌

    浙江省肿瘤医院联合阿里巴巴达摩院,发布了全球首个胃癌影像筛查AI模型DAMO GRAPE。 该模型首次利用平扫CT影像识别早期胃癌病灶,并联合全国20家医院,在近10万人的大规模临床研究中大幅提升胃癌检出率。 相关论文在24日登上了国际顶级期刊《自然医学》(Nature Medicine)。 据国家癌症中心统计,我国每年新发胃癌约36万例,死亡26万例,死亡人数在所有恶性肿瘤中位列第�

  • 端到端AEB正式上线!蔚来乐道Coconut椰子1.2.0版本开启推送

    5月29日,乐道汽车宣布端到端AEB系统正式上线,Coconut 1.2.0版本开启推送。本次升级重点包括:1)AEB系统防护范围扩展至240度,覆盖左侧60度高频盲区,基于海量实驾数据优化避险能力;2)车载AI语音上线麦当劳智能点餐服务,支持全程语音操作、随心换餐和到店时间预测;3)新增语音控制功能,可通过指令完成泊车影像开启、快速启动DeepSeek等操作;4)无麦K歌升级至2.0版本,新增AI伴唱、音效优化等功能。此次更新全面提升智能驾驶与车载娱乐体验。

  • iPad为何不运行macOS 苹果高管:macOS未对触摸屏做优化

    iPadOS 26带来了全新的应用视窗、下滑式菜单栏等功能,让iPad的操作体验更接近Mac,但苹果始终未让iPad运行macOS系统,其背后原因正式揭开。 苹果公司软件工程负责人Craig Federighi接受采访时称,iPadOS 26的新特性在生产力与简洁性之间取得了很好的平衡,macOS系统从未对触控屏做优化,我们要保留iPad最本质的简洁性,如果强行移植macOS,iPad将丧失其触控设备的独特价值。 Craig Fed