首页 > AI头条  > 正文

昆仑万维发布全新大模型奖励模型Skywork-Reward

2024-09-13 08:35 · 来源: AIbase基地

昆仑万维科技股份有限公司近日宣布,公司研发的两款全新奖励模型Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B在国际权威的奖励模型评估基准RewardBench上表现卓越,其中Skywork-Reward-Gemma-2-27B模型更是荣获榜首,得到了RewardBench官方的高度认可。

奖励模型在强化学习中占据核心地位,对智能体在不同状态下的表现进行评估,并提供奖励信号指导智能体的学习过程,使其能够在特定环境下做出最优选择。在大语言模型的训练中,奖励模型的作用尤为关键,有助于模型更准确地理解和生成符合人类偏好的内容。

微信截图_20240913083436.png

RewardBench是一个专门评估大语言模型中奖励模型有效性的基准测试榜单,通过多项任务对模型进行综合评估,包括对话、推理和安全性等领域。该榜单的测试数据集由提示词、被选响应和被拒绝响应组成的三元组构成,用以测试奖励模型是否能够在给定提示词的情况下,将被选响应正确地排在被拒绝响应之前。

昆仑万维的Skywork-Reward模型通过精心挑选的偏序数据集和相对较小的基座模型进行开发,与现有奖励模型相比,其偏序数据仅来源于网络公开数据,并通过特定筛选策略获得高质量的偏好数据集。这些数据涵盖了广泛的主题,包括安全性、数学与代码等,并经过人工验证,确保数据的客观性和奖励差距的显著性。

经过测试,昆仑万维的奖励模型在对话、安全性等领域展现了出色的表现,尤其在面对困难样本时,只有Skywork-Reward-Gemma-2-27B模型给出了正确的预测。这一成就标志着昆仑万维在全球AI领域的技术实力和创新能力,同时也为AI技术的发展和应用提供了新的可能性。

27B模型地址:

https://huggingface.co/Skywork/Skywork-Reward-Gemma-2-27B

8B模型地址:

https://huggingface.co/Skywork/Skywork-Reward-Llama-3.1-8B


  • 相关推荐
  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • HKIT携手WALLX推出创新区块链奖励模型,引领心理治疗与AI技术融合新趋势

    香港智能有限公司(HKIT)与WALLX公司合作,将AI技术与心理治疗相结合,开发出基于区块链的奖励和参与模式。该创新系统能精准评估用户心理状态并提供个性化治疗方案,同时利用区块链确保数据安全。双方还推出奖励机制,用户参与心理课程或贡献数据可获得,用于兑换咨询服务或健康产品。这一模式获得市场广泛关注,多家机构表达合作意向,被视为心理健康服�

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • 国内有哪些ai大模型?一文看懂中国核心AI大模型全景

    近两年中国AI大模型发展迅猛,已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出;深度求索DeepSeek以1/10参数实现GPT-4级推理能力;月之暗面Kimi以20万汉字上下文窗口领跑长文本处理;智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型,覆盖超1000家医院。开源生态加速国产芯片适配,15家厂商完成深度优化。行业应用方面,工程文档效率提升60%,24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向,中国AI正从实验室走向产业变革前沿。

  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • 告别模型搜寻困境:AIbase模型广场让你高效找到最佳AI模型

    文章探讨了在AI技术快速发展背景下,如何高效发现和评估适合需求的AI模型这一核心挑战。传统方式存在模型分散、评估门槛高、应用场景模糊等问题。AIbase模型广场通过聚合主流平台模型、提供多维度评估(性能指标、用户反馈、易用性等)、强化场景连接(按业务问题分类)和部署辅助信息,构建了完整的模型发现与应用生态。该平台能显著提升效率,帮助开发者快速锁�

  • 马斯克xAI推出Grok - 4 大模型将至,Meta/微美全息深耕开源AI融合加速

    埃隆·马斯克旗下xAI即将发布Grok-4大模型,该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs,加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施,扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型,推动AI产业升级。当前AI赛道竞争激烈,大模型正向通用多模态演进,商业化落地成为关键。

  • 最新AI模型哪里看?查找最佳AI模型平台推荐

    文章介绍了AI领域快速迭代背景下,开发者如何高效追踪最新模型动态。主要渠道包括:1)官方渠道(GitHub、公司官网/博客);2)科技媒体和社区(Twitter、Reddit等);3)专业聚合平台(推荐AIbase模型广场)。重点推荐AIbase平台,其优势在于:实时更新全球最新模型、结构化展示关键信息、支持多维筛选排序、直达相关资源链接。建议开发者善用官方渠道获取源头信息,同时�

  • “晓妙”产业大模型——AI驱动的产业变革

    7月4日,安徽数智建材研究院在长城工程科技会议上发布"晓秒"产业大模型。该模型由傲林科技投资支持,采用"1+1+N"架构,融合数据、机理和业务模型,实现生产运营全流程实时闭环优化。中国建材集团董事长周育先表示,该模型已在水泥板块试点应用,吨水泥成本降低1%以上,能耗电耗下降2%以上。会议指出,AI落地制造业需突破三大关键:建立数字化体系、夯实数据基础、实现工艺与数据融合。未来将拓展至新能源、钢铁等十余个行业,推动产业智能化升级。

  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

今日大家都在搜的词: