首页 > AI头条  > 正文

昆仑万维再次开源奖励模型Skywork-Reward-V2

2025-07-04 10:02 · 来源: AIbase基地

2025年7月4日,昆仑万维乘势而上,继续开源第二代奖励模型Skywork-Reward-V2系列。此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型,一经推出便在七大主流奖励模型评测榜单中全面夺魁,成为开源奖励模型领域的焦点。

奖励模型在从人类反馈中强化学习(RLHF)过程中起着关键作用。为打造新一代奖励模型,昆仑万维构建了包含4000万对偏好对比的混合数据集Skywork-SynPref-40M。在数据处理上,团队采用人机协同的两阶段流程,将人工标注的高质量与模型的规模化处理能力相结合。第一阶段,先构建未经验证的初始偏好池,借助大语言模型生成辅助属性,人工标注者再依照严格协议和外部工具、大语言模型对部分数据精细审核,构建出小规模高质量“金标准”数据集。随后以金标准数据偏好标签为引导,结合大语言模型大规模生成高质量“银标准”数据,并多轮迭代优化。第二阶段则转向自动化大规模数据扩展,用训练完成的奖励模型执行一致性过滤,减少人工标注负担的同时,实现偏好数据规模与质量的平衡。

微信截图_20250704095952.png

基于优质混合偏好数据开发的Skywork-Reward-V2系列,展现出广泛适用性和出色能力。它涵盖对人类偏好的通用对齐、客观正确性、安全性、风格偏差抵抗能力以及best-of-N扩展能力等多个维度。在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七个主流奖励模型评估基准上全面达到当前最优(SOTA)水平。即便基于最小模型Skywork-Reward-V2-Qwen3-0.6B,整体性能也几乎达到上一代最强模型的平均水平,Skywork-Reward-V2-Qwen3-1.7B更是超越当前开源奖励模型的SOTA。最大规模的Skywork-Reward-V2-Llama-3.1-8B在所有主流基准测试中全面超越,成为当前整体表现最优的开源奖励模型。

该系列模型还具备广泛覆盖多维人类偏好能力。在通用偏好评估基准上优于多个参数更大的模型及最新生成型奖励模型;在客观正确性评估方面,知识密集型任务表现突出;在多项高级能力评估中,包括Best-of-N任务、偏见抵抗能力测试、复杂指令理解及真实性判断等均取得领先成绩,展现出出色的泛化能力与实用性。

此外,数据筛选流程的高度扩展性显著提升了奖励模型性能。经过精细筛选和过滤的偏好数据,在多轮迭代训练中能持续有效提升模型整体性能,尤其在第二阶段全自动数据扩展中表现显著。早期版本实验显示,仅用1.8%的高质量数据训练8B规模模型,性能就超过当前70B级SOTA奖励模型,印证了Skywork-SynPref数据集在规模和质量上的优势。

HuggingFace地址:

https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84

GitHub地址:

https://github.com/SkyworkAI/Skywork-Reward-V2

  • 相关推荐
  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • HKIT携手WALLX推出创新区块链奖励模型,引领心理治疗与AI技术融合新趋势

    香港智能有限公司(HKIT)与WALLX公司合作,将AI技术与心理治疗相结合,开发出基于区块链的奖励和参与模式。该创新系统能精准评估用户心理状态并提供个性化治疗方案,同时利用区块链确保数据安全。双方还推出奖励机制,用户参与心理课程或贡献数据可获得,用于兑换咨询服务或健康产品。这一模式获得市场广泛关注,多家机构表达合作意向,被视为心理健康服�

  • 谭章熹博士出席 RISC-V 中国峰会 详解开源架构全球征程与中国机遇

    2025年7月16日,第五届RISC-V中国峰会在上海张江科学会堂举行。作为中国大陆规格最高、规模最大的RISC-V专业会展,峰会吸引了全球专家与产业领袖参与。RISC-V国际基金会董事谭章熹博士发表主题演讲,回顾了RISC-V从伯克利起步到全球发展的历程,强调其开源、免费、无专利限制的特性推动了技术创新和生态繁荣。他指出,RISC-V基础指令集仅40余条,结构简洁但高度模块化,适用于从嵌入式设备到高性能计算领域。中国正积极建设RISC-V生态,预计2030年中国高性能RISC-V芯片市场规模将达2000-3000亿元,占全球20%-30%。谭博士表示,RISC-V发展重心正向AI加速、数据中心等高性能场景迈进,将与x86、ARM展开竞争,成为数字时代承载国家技术主权与产业升级的重要基础。

  • Yandex Market 亮相杭州2025全球跨交会

    俄罗斯电商平台Yandex Market在杭州设立中国区首个商家服务中心,与余杭区商务局正式签约。该平台拥有超1亿月活用户,2025年Q1跨境GMV同比激增630%,计划在中国招募5万卖家。杭州作为国内电商之都,拥有成熟的跨境电商生态和大量优质卖家资源。Yandex Market将于8月8日在杭州举办华东首场官方卖家峰会,邀请俄罗斯总部嘉宾出席,助力华东卖家开拓俄罗斯市场。此举标志着华东卖家与俄罗斯市场的距离进一步拉近。

  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 马斯克xAI推出Grok - 4 大模型将至,Meta/微美全息深耕开源AI融合加速

    埃隆·马斯克旗下xAI即将发布Grok-4大模型,该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs,加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施,扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型,推动AI产业升级。当前AI赛道竞争激烈,大模型正向通用多模态演进,商业化落地成为关键。

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • 外卖小哥暴雨救人致订单超时被顾客谅解 京东:已表彰并给到奖励津贴

    针对外卖小哥救人致订单超时被顾客谅解”一事,京东外卖官微回应称,已对对小哥进行表彰并给到奖励津贴。 ​

  • 三维天地AI智能体应用:数据资源盘点实现“自动驾驶”

    传统数据治理存在效率低下、深度不足、准确性差三大痛点。SunwayLink开发的智能体通过三大创新突破:1)自动生成数据目录,缩短盘点周期60%;2)NLP技术智能洞察数据内容,元数据填充率从20%提升至85%;3)动态监控元数据变更,自动更新并预警。某军工单位应用后,数据发现效率显著提升,血缘覆盖率达75%,自动化任务占比超80%。该方案实现了从"人治"到"智治"的转型,推动企业数字化升级。

今日大家都在搜的词: