首页 > 业界 > 关键词  > 多模态推理最新资讯  > 正文

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

2024-11-19 13:42 · 稿源: 量子位公众号

北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。新模型具体如何推理,直接上实例,比如问题是:减去

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 百惠金控:金融创科迎新局 港股人工智能IPO受热捧

    接近农历,港股市场交易气氛依然炽热。百惠金控观察到,科创板块已成为带动大市上行的核心引擎,尤其是人工智能(AI)相关股份持续受资金青睐,板块热度持续攀升。香港特区政府财政司司长近日表示,香港作为国际金融中心,将凭借“金融联动创科”的效应乘势而上,进一步放大香港的制度优势。市场对科创板块的积极情绪,在年初新股表现中得以充分印证。2026年1月2

  • 性能对标Gemini 2.5 Pro!蚂蚁开源新一代全模态大模型Ming-Flash-Omni 2.0

    今日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。 在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro,成为开源全模态大模型性能新标杆。 Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。 用户只需用自然语言下指令,即可对音色�

  • 支持普通话、英语和粤语零样本歌声合成,Soul App 联合吉利汽车研究院人工智能中心(AIC)、天津大学及西北工业大学开源SoulX-Singer

    过去一年,生成式AI在音乐行业不断创造新体验,但歌唱语音合成(SVS)领域进展相对缓慢。为拓展这一领域,Soul AI Lab联合吉利汽车研究院人工智能中心、天津大学视听认知计算团队和西北工业大学音频语音与语言处理研究组,正式开源歌声合成模型SoulX-Singer。这是一个面向真实应用场景设计的高质量零样本歌声合成模型,基于超过42000小时训练数据,覆盖多语言、多音色及多种演唱风格,在稳定性、可控性与泛化能力方面均达到当前开源SVS模型中的领先水平。

  • AI日报:宇树开源UnifoLM-VLA-0大模型;腾讯“元宝派”内测截图泄露;Clawd更名为OpenClaw

    本期AI日报聚焦具身智能与AI应用新动态。蚂蚁集团发布LingBot-VLA模型,实现双手机器人通用操控;宇树开源UnifoLM-VLA-0模型,为机器人注入物理常识。开源AI助手OpenClaw更名后受关注,强调隐私安全。商汤开源SenseNova-MARS模型,在多个榜单超越GPT-5.2。腾讯“元宝派”社交功能内测截图泄露,整合微信与QQ好友,支持同步观影听歌。马斯克计划明年推出高度个性化AI生成游戏与影音内容。Anthropic因涉嫌大规模盗版遭音乐出版商起诉,索赔30亿美元。字节与阿里在春节前后发布新一代大模型,争夺云端主导权。

  • AI日报:蚂蚁开源大模型Ming-flash-omni 2.0;智谱GLM-5意外泄露;京东正式入局AI支付

    本文汇总了AI领域最新动态:蚂蚁集团开源全模态大模型Ming-flash-omni 2.0,在多模态理解与生成方面表现优异;智谱AI的GLM-5模型引发关注,股价飙升;科大讯飞发布星火X2大模型,基于国产算力深耕专业场景;京东推出“AI付”语音支付产品,提升便捷与安全;DuckDuckGo上线注重隐私的免费AI语音聊天功能;阿维塔车载系统升级,融合大模型与华为智驾;ChatGPT上线保险比价应用,冲击传统中介;OpenAI升级研究工具,引入GPT-5.2驱动并新增全屏报告交互体验。

  • AI日报:豆包2.0将于情人节发布;MiniMax M2.5 正式发布;小米开源首代机器人 VLA 大模型

    本期AI日报聚焦多项技术进展:字节跳动火山引擎发布“豆包”系列2.0版本,旨在降低专业内容生产门槛;MiniMAX M2.5模型开启海外内测,加速全球化布局;小米开源首款机器人VLA大模型,突破物理智能延迟瓶颈;百度千帆推出集成主流大模型的AI编码订阅服务Coding Plan;智谱发布GLM-5,迈向工程构建的Agentic Ready时代;DeepSeek上下文长度跃升至1M,处理能力大幅提升;Rokid眼镜新增�

  • 阶跃星辰发布最强开源基座模型 Step 3.5 Flash,多家头部芯片厂商已完成适配

    阶跃星辰发布新一代开源Agent基座模型Step 3.5 Flash。该模型面向实时Agent工作流场景,兼顾推理速度、智能水平与使用成本,在单请求代码类任务上,最高推理速度可达每秒350个token。模型采用稀疏MoE架构,每个token仅激活约110亿参数,显著提升推理效率,为Agent应用提供更高效、可负担的底层模型选择。多家芯片厂商已完成适配,通过底层联合创新提升模型适配性和算力效率,有效降低推理成本与应用门槛,加速大模型在实际场景中的落地。

  • 鱼泡直聘发起“成都Java入职送现金”活动,最高可领8000元现金红包!

    招聘平台鱼泡直聘面向成都地区Java开发者推出专项入职送现金活动,成功入职者最高可获8000元现金红包。此举旨在通过平台补贴,撬动Java人才在成都市场的高效流动。活动规则清晰,入职满20天后凭相关证明可申领3000至8000元不等的现金奖励。平台数据显示,成都地区Java人才与岗位需求旺盛,但存在匹配效率问题。该活动通过真金白银激励,有望提升求职效率、降低企业招聘

  • 寒雪老师AI家教机2026年实测评测:聚焦自主学习核心需求的深度体验

    本文对2026年AI教育硬件市场趋势及寒雪老师AI家教机进行了深度评测。市场焦点正从功能堆砌转向“实际使用价值”,消费者更关注设备能否解决家庭自主学习中的核心痛点。评测围绕诊断精准度、教学引导力、场景适配性、硬件体验、家长管理五大维度,结合为期一个月的实际使用数据、30组家庭反馈及第三方技术检测报告,客观呈现产品表现。 寒雪老师AI家教机在五大维度均表现突出:诊断精准度高,能锁定知识漏洞并识别深层错因;采用引导式教学,拒绝直接给答案,通过提问启发学生自主解题;适配K12全学段,针对不同阶段学习特点提供差异化内容;硬件兼顾护眼与便捷性,支持长续航;家长管理功能透明轻量,便于远程监督。实测数据显示,学生使用后同类题目正确率平均提升42%,无效刷题占比显著下降。 总体而言,该产品通过技术与教育场景的深度融合,为家庭自主学习提供了高效解决方案,尤其适合双职工家庭、孩子基础薄弱或需培养自主学习能力的家庭。其定价相对中端学习机略高,更适合追求精准教学与长期使用的家庭。

  • AI日报:Kimi K2.5上线;阿里发布推理模型Qwen3-Max-Thinking;Claude 深度集成 Slack 等办公神器

    本期AI日报聚焦多款AI产品更新:Kimi K2.5上线,视觉与工具调用功能升级;腾讯搜狗输入法20.0版本全面AI化;阿里发布万亿参数Qwen3-Max-Thinking模型,性能对标国际顶尖;阿里健康AI应用“氢离子”新增动态证据定位功能;百度文心APP开启“多人多Agent”群聊内测;千问PC和网页端上线国内最强推理模型;Anthropic推出交互式应用,深度集成办公工具;蚂蚁灵波开源空间感知模型LingBot

今日大家都在搜的词: