AI日报：昆仑万维开源R1V多模态推理模型；豆包AI编程能力上线三大功能；英伟达推DGX个人AI超级计算机

2025-03-19 15:25 · 来源： AIbase基地

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、昆仑万维开源Skywork R1V视觉思维链推理模型

昆仑万维推出全球首个开源多模态推理模型Skywork R1V，具有38亿参数，性能接近知名闭源模型DeepSeek-R1。R1V在视觉问答和复杂推理任务中表现优异，特别是在MMMU和MathVista基准测试中分别取得69分和67.5分的高分。

【AiBase提要:】
🌟 全球首个工业界开源多模态推理模型Skywork R1V正式发布，参数高达38亿。
🚀 R1V在多个基准测试中表现卓越，尤其在MMMU和MathVista中分别取得69分和67.5分的高分。
📚 昆仑万维的开源举措旨在推动技术共享，为全球AI开源社区注入活力，助力AGI的梦想实现。
详情链接:https://huggingface.co/Skywork/Skywork-R1V-38B

2、豆包AI编程能力再升级上线HTML预览等三大功能

豆包最近对其网页版和电脑版的AI编程功能进行了重要升级，旨在提升用户的编程效率和体验。这次升级包括HTML实时预览、Python代码直接运行以及生成完整项目代码的功能。用户可以更直观地开发网页和小游戏，快速修复Python代码错误，并轻松生成完整项目代码，简化了开发流程。这些新功能将大大提高用户在编程过程中的便利性和效率。

【AiBase提要:】
🌐 新增HTML实时预览功能，用户可以直观制作小游戏和网页，提升开发体验。
🐍 支持Python代码直接运行，AI一键修复错误，减少调试时间。
📦 新增生成完整项目代码功能，简化前后端逻辑生成，提高开发便捷性。

3、Google Gemini 推出 “画布” 与音频概览功能，提升用户协作体验

Google 最近推出了 Gemini 的新功能“Canvas”，旨在提升用户的创作和协作体验。此功能允许用户轻松编辑和分享写作与编程项目，提供了更高效的协作方式。通过 Canvas，用户可以实时更新草稿，并生成代码预览。此外，音频概览功能也被引入，方便用户生成文档的音频摘要。这些新工具使 Gemini 成为一个更强大的创作伙伴，极大地便利了用户的工作流程。

【AiBase提要:】
📝 Canvas 功能允许用户在 Gemini 中轻松起草和编辑长篇信息，支持实时更新和协作。
💻 提供编程工具，用户可以生成和预览 HTML、React 代码，实时查看效果。
🎧 新增音频概览功能，用户可快速生成文档的音频摘要，便于分享和下载。

4、Cursor 推出 Claude Max，改写 AI 编程格局

Cursor 最新推出的 Claude Max 模型以其卓越的性能和创新能力，重新定义了 AI 辅助编程的标准。该模型的上下文处理能力极为出色，能够一次性处理高达20万字的内容，使得开发者可以更高效地管理整个项目代码库。同时，Claude Max 还具备强大的工具调用能力和代码理解能力，显著提升了编程效率。

【AiBase提要:】
🚀 Claude Max 具备高达20万字的上下文处理能力，允许开发者一次性输入整个项目代码库。
⚙️ 支持多达200次工具调用，显著提升了编辑和优化代码的效率。
💰 按使用量计费，适合需要处理复杂项目的高级用户，而非日常编码任务。

5、Adobe放大招!一口气推出10个AI智能体，可为客户创建个人网站

Adobe再次在生成式AI领域引领潮流，推出10个全新的AI智能体，旨在提升客户体验。这些智能体涵盖了客户互动、内容生产、数据管理等多个方面，协同作战，帮助企业更有效地管理客户关系和优化网站。与此同时，Adobe还推出了名为Brand Concierge的新功能，提供个性化的网站访问体验，进一步增强客户的参与度和忠诚度。

【AiBase提要:】
🤖 Adobe推出10个AI智能体，旨在提升客户互动和内容生产效率。
🌐 新功能Brand Concierge提供个性化网站体验，增强客户参与度。
📈 生成式AI流量在零售和旅游网站上显著增长，显示消费者对AI体验的接受度提高。

6、字节跳动豆包大模型团队召开全员会，探索 AI 新高度

在人工智能迅速发展的背景下，字节跳动的豆包大模型团队召开全员会议，明确未来发展方向。会议由朱文佳与吴永辉共同主持，强调探索智能上限的重要性，鼓励团队成员参与具有挑战性的研究。吴永辉还提出将增加对Seed Edge项目的资源投入，以吸引和培养顶尖人才。

【AiBase提要:】
🚀 Seed团队的首要目标是探索智能的边界，围绕AGI研究计划进行深入研究。
💡 朱文佳鼓励团队参与具有不确定性的AI技术研究，强调挑战性课题的重要性。
🌍 团队计划开源中小尺寸的Dense模型，以促进技术应用和外部合作。

7、Stability AI 发布新模型Stable Virtual Camera，2D 照片轻松转3D 视频

Stability AI推出的Stable Virtual Camera是一款创新的人工智能模型，能够将2D图像转换为沉浸式视频，提供真实的深度和视角。该模型允许用户从一张或多张图像中生成新视角，并指定相机角度，支持多种动态效果。然而，当前版本仍为研究预览版，存在在特定场景下质量下降的风险。

【AiBase提要:】
🌟 Stable Virtual Camera可将2D图像转换为沉浸式视频，提供多种相机路径选择。
📉 当前模型为研究预览版，处理某些场景可能会出现质量下降的问题。
💼 Stability AI在经历管理危机后，正在积极重组并推出新产品，以改善公司前景。
详情链接:https://top.aibase.com/tool/stable-virtual-camera

8、每秒1000万亿次计算!Nvidia发布两款个人AI超级计算机DGX Spark 与 DGX Station

在2025年全球技术大会上，Nvidia的创始人兼CEO黄仁勋发布了两款颠覆性的个人AI超级计算机DGX Spark和DGX Station。这两款设备不仅具备超强的计算能力，分别实现每秒高达1000万亿次的AI计算，还为边缘计算领域的创新提供了新的可能性。

【AiBase提要:】
⚡ DGX Spark具备每秒1000万亿次的AI计算能力，采用GB10Grace Blackwell超级芯片，适合复杂AI模型处理。
🖥️ DGX Station搭载GB300Grace Blackwell Ultra Desktop超级芯片，配备784GB内存，提供卓越的桌面计算体验。
🌐 Nvidia的两款超级计算机旨在支持边缘计算，助力企业快速实现AI模型的原型设计与调优。

9、Nvidia推新Dynamo软件，计划将DeepSeek的AI速度提升30倍

在3月18日的GTC大会上，Nvidia首席执行官黄仁勋宣布推出Dynamo软件，旨在将DeepSeek的AI处理速度提升30倍。此举回应了DeepSeek公司R1人工智能程序引发的市场动荡。Dynamo软件能够将AI推理任务分配到多达1000个GPU上并行处理，显著提升查询吞吐量，服务提供商能够更高效地处理客户查询，从而提高收入。

【AiBase提要:】
🌟 Nvidia推出Dynamo软件，显著提升DeepSeek AI的处理速度。
💰 服务提供商通过Dynamo能够更高效地处理客户查询，提高整体收入。
🖥️ 新版Blackwell芯片“Ultra”和DGX Spark计算机在大会上正式发布。

10、Grok上线DeeperSearch功能，提升实时AI资讯检索能力

近日，xAI推出的人工智能助手Grok新增DeeperSearch功能，显著提升了其在Twitter上实时检索AI资讯的能力。该功能能够快速分析过去48小时内的热点话题，用户反馈积极，显示出Grok在信息处理方面的强大实力。

【AiBase提要:】
📰 DeeperSearch功能能够深入分析Twitter上过去48小时的AI热点资讯，提供及时信息。
🚀 Grok的升级提升了其实时数据处理能力，尤其在信息流速极高的社交媒体上表现突出。
🏆 此次功能的推出为Grok在与ChatGPT等竞品的竞争中提供了差异化优势，展现出独特的潜力。

相关推荐

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报】今日AI领域重要动态：1)阿里开源支持链式推理的音频生成模型ThinkSound，实现高保真空间音频生成；2)谷歌Veo3升级，支持静态图片生成生动视频；3)Hugging Face发布30亿参数小模型SmolLM3，性能优于Llama-3.2-3B；4)阿里开源网络智能体WebSailor，展现强大推理和检索能力；5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5；6)Vidu Q1支持最多七张参考图像生成一致性视频；7)苹果�

人工智能音频生成链式推理
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

本文介绍了AI日报栏目及近期AI领域多项突破性进展：1)智谱推出免费AI Slides工具，基于GLM模型快速生成高质量PPT；2)可灵AI发布可图2.1模型，支持180多种风格图像生成；3)NVIDIA推出DiffusionRenderer技术，实现视频到可编辑3D场景转换；4)墨刀AI新增30秒生成高保真原型功能；5)Higgsfield推出Soul ID工具，10张照片即可生成虚拟形象；6)谷歌DeepMind开源GenAI Processors工具库；7)谷歌Veo新增图像转视频功能；8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。
荐AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

AI日报栏目聚焦AI领域最新动态：1)字节跳动将发布TRAE 2.0编程工具，新增语音交互功能；2)Mistral推出开源音频模型Voxtral，支持多语言；3)月之暗面回应Kimi K2API速度慢问题，正在优化系统；4)昆仑万维发布AgentOrchestra框架，实现多智能体协作；5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资；6)Kimi-2上线，性能超越GPT-4.1；7)TRAE推出Kimi-K2模型服务，国际版支持Grok-4；8)字节跳动Seed�

人工智能编程工具字节跳动
荐AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

【AI日报】今日AI领域重要动态：1)美图推出RoboNeo，通过自然语言指令实现图片精修、品牌设计等全能影像处理；2)Unsloth AI将Kimi K2模型量化至1.8bit，体积缩减78%保持性能；3)谷歌Gemini嵌入模型登顶MTEB榜单，超越OpenAI；4)亚马逊发布免费AI代码编辑器Kiro，集成Claude模型；5)Claude新增应用工具目录功能提升工作效率；6)MiniMax完成近3亿美元融资，估值超40亿美元；7)UTCP新协议让AI代理直
主流AI多模态大模型有哪些？超全的多模态大模型指南分享

2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据，实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型，对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

多模态大模型 AI技术发展 GPT-4V
微软以Maia 280开启新局对垒英伟达，Meta/微美全息开源联动引领AI创新

微软自研AI芯片Braga因设计问题延期至2026年，将推出过渡产品Maia280，性能或提升30%。微软原计划2025年量产Braga芯片以减少对英伟达的依赖，但延期导致后续产品线同步推迟。面对英伟达在AI芯片领域的主导地位（市占率超80%，年销售额增长10倍），微软正调整战略转向更务实的迭代路线。与此同时，Meta成立"超级智能团队"加速AI研发，微美全息押注量子计算等前沿技术。行业分析师认为，由于英伟达技术迭代速度极快（年增长32%），多数企业自研芯片计划可能最终难以抗衡其市场领导地位。

微软AI芯片 Braga芯片延期 Maia280产品
荐AI日报：12306 MCP Server上线；百度推AI搜索助手Tizzy.ai；ChatGPT录音模式面向Plus用户开放

【AI日报】今日AI领域重要动态：1)百度推出无广告智能搜索助手Tizzy.ai，整合影视资源与深度思考功能；2)12306开源火车票查询引擎上线，采用FastAPI架构实现秒级响应；3)ChatGPT向Plus用户全面开放录音功能，支持实时记录与内容总结；4)开源SaaS模板FireGEO助力快速构建现代化Web应用；5)国产工具ReadMeX可一键生成高质量GitHub文档；6)百度AI助手新增视频通话功能，支持方言识别；7)Jacky

人工智能智能搜索助手影视资源
英伟达Blackwell Ultra芯片商用落地，微美全息以“算力+开源”领航AI科技新程

英伟达与CoreWeave合作推出新一代AI芯片Blackwell Ultra，该芯片已实现商业部署，采用液冷技术，包含72个GPU和36个CPU。Blackwell Ultra的AI内容生成能力是前代产品的50倍，预计今年批量出货。英伟达凭借高性能AI芯片近乎垄断市场，年利润超5000亿元，市值逼近4万亿美元，有望成为全球市值最高公司。微软推迟自研AI芯片发布，转向过渡性设计方案。微美全息专注AI芯片技术布局，构建多元化技术生态，推动产业协同，成为全球AI芯片竞赛重要参与者。当前AI产业进入大规模商业化关键阶段，算力需求持续高涨，推动企业向算力数智化迁移。消费电子领域，AI赋能传统智能终端，新型智能硬件结合AI创造增量需求，关注算力产业链技术创新配套机遇。
荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

AI日报精选：1)百度开源文心大模型4.5系列，含10款新模型，性能优异；2)通义千问发布多模态模型Qwen-VL，支持图文交互；3)阿里开源3亿参数多模态模型Ovis-U1；4)华为开源盘古7B稠密和72B混合专家模型；5)美图MOKI推出AI创意广告功能，一键生成专业视频；6)谷歌Gemini 2.5 Pro API重新免费开放；7)豆瓣上线"深入研究"AI功能；8)小米"AI百宝箱"结束内测；9)北京智研院开源多模态系统OmniGen2；10)知乎升级"直答"知识库功能。

AI日报文心大模型开源模型

今日大家都在搜的词：

热文

3 天
7天

AI日报：昆仑万维开源R1V多模态推理模型；豆包AI编程能力上线三大功能；英伟达推DGX个人AI超级计算机

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

荐AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

荐AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

主流AI多模态大模型有哪些？超全的多模态大模型指南分享

微软以Maia 280开启新局对垒英伟达，Meta/微美全息开源联动引领AI创新

荐AI日报：12306 MCP Server上线；百度推AI搜索助手Tizzy.ai；ChatGPT录音模式面向Plus用户开放

英伟达Blackwell Ultra芯片商用落地，微美全息以“算力+开源”领航AI科技新程

荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

今日大家都在搜的词：

热文

华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

苹果iOS 26公测版本周发布：预计7月23日亮相

黄仁勋：总感觉公司快倒闭了任CEO没有趣味每一秒都有压力

华为Pura 80标准版7月23日开启预售

特斯拉Model3全球销量达300万辆夏日福利大放送

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

华为鸿蒙智行：尊界S800上市50天大定破8000台

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

华为MatePad Pro 12.2开启预约预计7月24日正式发布

理想i8开启预定：7月29日上市预售价35-40万元

小米深圳大厦开园：卢伟冰现场喝小米粥

小米骨传导耳机2发布：699元 7月21日开售

OPPO K13 Turbo系列支持IPX9/IPX8/IPX6满级防水将于7月21日发

站长商机