首页 > AI头条  > 正文

昆仑万维开源Skywork R1V视觉思维链推理模型

2025-03-19 10:06 · 来源: AIbase基地

昆仑万维正式发布了全球首个工业界多模态推理模型 Skywork R1V(简称 “R1V”)。这款具有38亿参数的模型在性能上已接近知名闭源模型 DeepSeek-R1,甚至在多个基准测试中表现出色,横扫了一系列当前的最先进技术(SOTA)。昆仑万维选择开源 R1V,旨在推动技术的共享与进步,为全球 AI 开源社区注入新活力。

QQ_1742285189313.png

R1V 以其卓越的多模态推理能力而闻名,能够无缝结合文本和视觉信息,展示出强大的智能。具体来看,R1V 在视觉问答任务中直接对标 Claude3.5Sonnet 和 GPT-4o 等闭源模型,并保持顶级文本推理能力。在 MMMU 基准测试中,R1V 以69分的高分创造了同等规模模型的新纪录,而在 MathVista 测试中也取得了67.5分的优异成绩,显示了其在复杂数学推理和逻辑分析中的强大能力。

R1V 的成功得益于昆仑万维研究团队的多项创新技术。其中,包括跨模态迁移学习,该方法有效地将大模型的文本推理能力迁移至视觉模态,极大地减少了多模态推理数据的需求。此外,R1V 采用的混合训练策略通过迭代监督微调和强化学习的结合,动态调整思维链长度,从而提高了推理效率。值得一提的是,R1V 还引入了自适应长度思维链蒸馏框架,以避免推理过程中的 “过度思考”,显著提升了推理的效率和质量。

随着 R1V 的推出,昆仑万维不仅成为全球首家开源多模态推理模型的公司,更在推动 AGI(通用人工智能)梦想的实现上迈出了重要的一步。模型的权重、推理代码和技术报告均已公开,任何人都可以通过 GitHub 和 Hugging Face 获取相关资源。

模型权重下载

Hugging Face:

https://huggingface.co/Skywork/Skywork-R1V-38B

GitHub:

https://github.com/SkyworkAI/Skywork-R1V

详细技术报告

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf

划重点:

🌟 全球首个工业界开源多模态推理模型 Skywork R1V 正式发布,参数高达38亿。  

🚀 R1V 在多个基准测试中表现卓越,尤其在 MMMU 和 MathVista 中分别取得69分和67.5分的高分。  

📚 昆仑万维的开源举措旨在推动技术共享,为全球 AI 开源社区注入活力,助力 AGI 的梦想实现。

  • 相关推荐
  • AI日报:昆仑万维开源Skywork-OR1系列模型;讯飞星辰Agent开发平台全面支持MCP;字节跳动布局AI智能眼镜

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4oMoonshot AI 最近开源了 Kimi-VL 和 Kimi-VL-Thinking 两款视觉语言模型,展现出卓越的多模态理解与推理能力。这些模型采

  • AI日报:昆仑万维开源SkyReels-V2;讯飞星火X1全新升级;扣子空间Coze Space内测

    本文介绍了多个前沿的人工智能产品和技术动态,包括SkyReels-V2视频生成模型、讯飞星火大模型升级、宇树科技人形机器人比赛计划、Coze Space AI协作平台、Gemma3 QAT优化模型、英特尔AI Playground工具、Reachy2人形机器人发布、ChatTS-14B语音研究项目、Figma推出AI设计工具以及MarkItDown MCP文档转换工具,展示了AI技术在多领域的广泛应用与创新发展潜力。

  • 重估昆仑万维:Meta式开源、Adobe级爆款、腾讯级生态

    中国AI公司昆仑万维凭借独特商业模式实现快速增长,其战略融合了Meta的开源技术、Adobe的垂直产品矩阵和腾讯的生态思维。公司90%收入来自海外市场,通过视频、音乐、社交等产品矩阵在东南亚、中东等新兴市场快速扩张。核心产品包括短剧平台DramaWave(年收入1.2亿美元ARR)和AI音乐平台Mureka(年收入1200万美元ARR),均实现盈利。技术层面,公司采用"垂直开源+商业验证"模式,推出SkyReels视频生成等开源模型,形成开发者生态闭环。其独特之处在于:既非单纯对标国际巨头的通用模型,也避免国内同质化竞争,而是通过开源底座+垂类产品+生态卡位的组合构建差异化优势。2024年财报显示,公司AI业务年收入达10亿元,研发投入同比增长23.4%。市场看好其"平台型AI矩阵"价值,近一月股价上涨20.7%。这家中型科技企业的突围路径,为行业提供了技术出海与生态共建的新范式。

  • 7个月ARR 1.2亿美元,昆仑万维靠“短剧+AI”找到了新增长点

    据某头部媒体发布的行业白皮书显示,海外短剧月均用户已达2000-4000万,未来短剧预计将覆盖亿级的海外用户,市场规模或突破百亿美元。正是在这一行业窗口期,昆仑万维以“后来者”姿态切入赛道,却迅速在全球市场中突围,吸引了我

  • 142页长文揭秘DeepSeek-R1思维大脑」,开启全新「思维链学」研究

    DeepSeek-R1是一款开创性的大型推理模型(LRM),其研究揭示了AI推理能力的质变。该模型通过多阶段训练流程,将推理过程内嵌于模型本身,实现了从"提示驱动"到"内生推理"的模式转变。研究团队通过142页报告详细分析了R1的思维链,发现其推理过程具有高度结构化特征,包含问题定义、绽放周期、重构周期和最终决策四个阶段。模型展现出类人推理能力,能通过分

  • 不要思考过程,推理模型能力能够更强

    UC伯克利和艾伦实验室的最新研究表明,推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案,跳过了传统推理模型中的显性思考步骤。实验证明,在低资源(低token数量、少模型参数)或低延迟情况下,NoThinking方法的表现优于传统思考方式,能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异,尤其在资源受限时优势更明显。研究还发现,结合并行计算扩展后,NoThinking能进一步提升性能,在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。

  • 国产六大推理模型激战OpenAI?

    2025年春节前夕,DeepSeek-R1模型发布,标志着中国AI进入推理模型新时代。文章梳理了国产大模型发展历程:从2022年ChatGPT引发国内追赶OpenAI热潮,到2023年"百模大战",再到2024年"AI六小虎"格局形成。重点分析了六大国产推理模型(DeepSeek、百度、阿里、科大讯飞、字节、腾讯)的技术特点与市场表现,指出国产模型在性能上已接近GPT-4水平。特别强调科大讯飞星火X1凭借全国产化技术路线获得政企青睐,以及DeepSeek-R1以560万美元超低成本实现高性能的突破。文章还探讨了英伟达芯片断供危机下,国产全栈技术路径的重要性,认为自主可控将成为对抗国际不确定性的关键。最后指出,随着推理模型成为竞争焦点,国产大模型正从技术追随转向自主创新阶段。

  • 生成很强,推理很弱:GPT-4o的视觉短板

    研究显示,GPT-4o在图像理解和推理上表现出色,能生成精美图片,但在基础逻辑测试中表现欠佳,暴露出理解、推断及多步骤逻辑处理的不足。例如,被要求画一只猫时,它先画了狗然后改为猫,但仍存在错误判断。这表明当前AI更像“精确指令机器”,需进一步优化以实现更精细的图像理解和复杂任务处理。

  • 超越DeepSeek-R1,英伟达开源新王登顶,14H100小时训练细节全曝光

    英伟达发布开源Llama-Nemotron系列模型,性能超越DeepSeek-R1。该系列包含三个版本:8B、49B和253B参数模型,其中253B的Ultra版本在推理吞吐量和内存效率上表现突出。关键技术包括:1)采用神经架构搜索优化模型结构;2)通过知识蒸馏和持续预训练提升性能;3)结合合成数据监督微调;4)在STEM领域进行大规模强化学习训练。Ultra版本在GPQA基准测试中达到开源模型最高水平,单节点8xH100即可高效运行。模型创新性支持"推理开关"功能,通过指令动态切换推理模式。训练流程包含五阶段优化,最终模型在数学推理和通用任务上均表现优异,部分基准超越专有模型。

  • AI日报:小米首个推理大模型开源Xiaomi MiMo;快手上线AI笔记工具“喵记多”;腾讯拆分AI团队

    本文汇总了AI领域最新动态:1)小米开源70亿参数大模型Xiaomi MiMo,在数学推理和代码竞赛中超越OpenAI和阿里模型;2)快手推出AI笔记工具"喵记多",简化笔记管理;3)Luma AI发布电影级镜头控制API,降低视频生成门槛;4)腾讯重组AI团队,加大语言模型研发投入;5)Anthropic为Claude引入新语音"Glassy";6)谷歌NotebookLM新增50+语言音频概述功能;7)xAI将发布Grok3.5模型;8)Meta推出独立AI助手应用挑战ChatGPT;9)OpenAI紧急修复GPT-4o"谄媚"问题;10)Mac本地AI助手Simular升级隐私保护;11)CameraBench项目帮助AI理解镜头运动;12)谷歌推出个性化语言学习AI工具。

今日大家都在搜的词: