AI日报：重磅！阿里新夸克升级为“AI超级框”；谷歌开源多模态模型Gemma-3；潞晨科技开源视频大模型Open-Sora 2.0

2025-03-13 15:22 · 来源： AIbase基地

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里巴巴推出AI旗舰应用“新夸克” 全面升级为“AI超级框”

阿里巴巴于3月13日推出了其全新升级的AI旗舰应用——新夸克。这款应用基于阿里通义的先进推理与多模态大模型，整合了多种AI功能，旨在为用户提供无缝的智能体验。新夸克不仅能够进行智能对话，还具备深度思考和执行能力，能够满足用户在多个场景下的需求。

【AiBase提要:】
🤖 新夸克整合了AI对话、深度思考、深度搜索等多种功能，提供一站式服务。
📊 通过智能中枢系统，新夸克能够自动识别用户指令并进行深度执行。
🌐 阿里巴巴计划将通义系列模型的最新成果快速接入新夸克，以增强其功能。

2、谷歌开源新一代多模态模型 Gemma-3:性能卓越、成本降低10倍

谷歌最新发布的多模态大模型Gemma-3以其低成本和高性能引起了广泛关注。该模型支持多种参数规模，最大可达270亿参数，且仅需一张H100显卡进行高效推理，算力需求显著降低。Gemma-3在对话模型评比中表现优异，支持长文本处理和多模态数据，展现出强大的语言处理能力和创新的架构设计，是当前算力要求最低的高性能模型之一。

【AiBase提要:】
🔍 Gemma-3是谷歌最新开源的多模态大模型，参数范围从10亿到270亿，且算力需求降低10倍。
💡 模型采用创新的架构设计，有效处理长上下文和多模态数据，支持文本与图像的同时处理。
🌐 Gemma-3支持140种语言的处理能力，经过训练优化后在多项任务中表现优异，展现了强大的综合能力。
详情链接:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

3、百度文心快码推出Comate Zulu版本并正式开放公测

百度旗下的文心快码推出了Comate Zulu版本，标志着在智能编程领域的一次重大突破。该版本通过结合文心大模型的强大能力和丰富的编程大数据，为开发者提供了更高效的编程体验。用户可以通过自然语言与系统进行交流，快速搭建项目和理解代码逻辑，大幅提升开发效率。公测活动将持续至3月28日，开发者可以在主流IDE中体验这一创新功能。

【AiBase提要:】
🛠️ 通过全自然语言实现需求，无需编写代码即可自动搭建项目，支持口语交流和图片展示。
📊 快速理解代码库的业务逻辑，提供架构图梳理和智能启发思路，帮助开发者迅速上手新项目。
⚙️ 自动搭建开发环境，支持依赖自动安装和服务自启动，实现从需求到代码的端到端生成。
详情链接:https://comate.baidu.com

4、字节Trae接入硅基流动SiliconCloud 支持DeepSeek多款模型API

硅基流动平台与字节跳动推出的AI IDE——Trae正式接入，提升了开发者的编程体验。用户可以通过简单的步骤接入多款编码模型，包括DeepSeek-R1、V3等，满足不同需求。平台还提供免费的API服务，助力开发者实现更高效的开发过程。未来，硅基流动将继续扩展模型种类和合作应用，致力于为开发者提供更稳定的服务。

【AiBase提要:】
🔧 Trae接入硅基流动，提供多种高效编码模型，提升编程体验。
🔑 用户可通过简单步骤添加模型，获取API密钥。
🚀 硅基流动致力于提供稳定的API服务，未来将扩展模型种类。

5、王炸更新!谷歌AI Studio再进化:YouTube视频秒懂，AI作画还能保持角色统一

谷歌AI Studio的最新升级引发了科技圈的轰动，用户现在可以直接通过YouTube链接理解视频内容，无需下载和上传。Gemini2.0Flash Experimental模型不仅在视频解析上表现出色，还在图像生成方面展现了惊人的一致性。

【AiBase提要:】
🎥 谷歌AI Studio现在支持直接解析YouTube视频链接，用户可快速理解视频内容。
🖼️ Gemini2.0Flash exp在图像生成方面表现卓越，角色在多张图片中保持一致性。
⚡ 更新标志着谷歌AI Studio从基础模型向应用级工具的转型，影响现有AI工具生态。
详情链接:https://ai.google.dev/gemini-api/docs/vision?lang=python&hl=zh-cn#youtube

6、叫板Sora?潞晨科技开源视频大模型Open-Sora2.0，降本提速

潞晨科技推出的Open-Sora2.0以其仅20万美元的训练成本和110亿参数的强大性能，成功挑战了OpenAI Sora等行业标杆。该模型在多个评测中表现优异，尤其在VBench中与OpenAI Sora的性能差距缩小至0.69%。

【AiBase提要:】
💰 成本低:Open-Sora2.0仅需20万美元训练成本，显著低于行业标准。
📈 性能强:拥有110亿参数，性能接近OpenAI Sora，VBench评测中表现优异。
🌐 开源共享:全流程训练代码开源，推动视频生成技术的共同发展。
详情链接:https://github.com/hpcaitech/Open-Sora

7、阿里通义新视频生成和编辑模型VACE 可控制运动轨迹、替换主体等

阿里通义Wan团队推出了全新的VACE模型，旨在降低视频制作的门槛并提升创作效率。VACE的按条件生成视频功能让用户可以通过文字描述快速实现创意，仿佛拥有了一支梦幻摄制组。此外，VACE还具备多种强大的编辑功能，如物体运动轨迹控制、视频主体替换、风格迁移和视频画面智能扩展等。

【AiBase提要:】
🎬 VACE模型通过文字描述快速生成视频，提升创作效率。
🔄 支持物体运动轨迹控制和视频主体替换，灵活多变。
🖼️ 具备视频画面智能扩展和风格迁移功能，丰富创作表现。
详情链接:https://arxiv.org/pdf/2503.07598

8、理想汽车AI助手理想同学网页版上线:接入DeepSeek R1满血版

理想汽车正式推出其人工智能助手理想同学网页版，标志着其在智能服务领域的进一步扩展。该助手接入了DeepSeek R1V3671B满血版，提供强大的问答能力和跨场景服务协同。用户可以在不同模型之间切换，支持长文本输入及图像问答功能，提升了交互体验。

【AiBase提要:】
💻 理想同学网页版现已上线，用户可在电脑端使用，拓展智能服务生态。
🔍 接入DeepSeek R1V3671B满血版，支持模型切换和深度思考功能，提升问答能力。
🖼️ 支持千字长文本输入和图像问答，提供更强的用户交互体验。

9、谷歌Gemini2.0Flash放出原生多模态图像生成功能:支持多轮对话式实时编辑

谷歌最新推出的Gemini2.0Flash在AI图像生成领域引入了原生图像生成技术，显著提升了生成效率和准确性。与以往依赖于大型语言模型的方式不同，Gemini2.0Flash实现了图像生成与文本理解的直接集成，使得创作过程更加流畅。

【AiBase提要:】
🎨 原生图像生成:Gemini2.0Flash将图像生成功能直接集成，避免了信息失真，提高了生成效率和准确性。
🖌️ 实时编辑:支持多轮对话式编辑，用户可以用自然语言提出修改意见，AI能够即时响应并调整图像。
📈 企业应用:为营销团队和开发者提供强大工具，快速生成内容，降低设计成本，提高工作效率。

10、Remade AI 开源8款 Wan2.1特效 LoRA，掀起 AI 视频创作新热潮

Remade AI 在 Hugging Face 平台推出了8款基于 Wan2.1模型的开源特效 LoRA，吸引了科技界的广泛关注。这些特效模块不仅能够将静态图像转化为动态视频，还为 AI 视频生成带来了新的创意可能性。

【AiBase提要:】
🎨8款新特效 LoRA 包括挤压、蛋糕化、膨胀等，丰富了 AI 视频创作的可能性。
💻 Wan2.1模型以其高效性和多功能性，成为视频生成领域的顶尖选择。
🌍 Remade AI 邀请全球用户提出定制需求，承诺持续开源更多特效模块。

11、AI对口型革命性突破:Captions新模型Mirage打造超真实UGC视频

Captions公司推出的全新AI模型Mirage，标志着视频生成技术的重大突破。该模型能够实时生成UGC风格视频，面部表情与肢体语言的真实度超越以往技术，简化了视频制作流程，尤其对广告和内容创作者而言，将成本和时间大幅缩减。

【AiBase提要:】
🚀 Mirage模型能够实时生成UGC视频，无需依赖预录素材或传统工具。
🎭 生成的角色面部表情与肢体语言真实度极高，难以分辨真假。
🌍 支持29种语言生成视频，极大简化视频制作流程，降低成本与时间。
详情链接:https://www.captions.ai/mirage

12、谷歌推机器人控制模型Gemini Robotics，让机器人像人类一样思考行动

谷歌的Gemini Robotics是一个革命性的机器人控制模型，旨在将人工智能的智慧注入机器人，使其在物理世界中更智能地行动。基于Gemini2.0模型，Gemini Robotics具备强大的多模态理解能力，能够理解文本、图像、音频和视频，并具备出色的泛化能力，能快速适应新环境和指令。

【AiBase提要:】
🚀 Gemini Robotics基于Gemini2.0模型，具备强大的多模态理解能力，能够处理文本、图像、音频和视频。
🧠 该模型展现出卓越的泛化能力，能够迅速适应新物体和环境，解决各种实际问题。
🔒 谷歌在安全性方面采取了全面措施，确保机器人在执行任务时的安全性和可靠性。
详情链接:https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

13、智谱AI宣布再获珠海5亿元融资

珠海华发集团近期宣布向智谱公司投资5亿元人民币，旨在推动其GLM大模型的技术创新与生态发展。这一举措标志着珠海国资正式加入智谱的投资阵容。智谱在融资方面表现优异，去年成功完成多轮融资，总额超过40亿元，吸引了多家知名投资机构。

【AiBase提要:】
💡 珠海华发集团向智谱进行5亿元战略投资，支持其技术创新与生态发展。
🚀 智谱在融资方面表现强劲，去年完成超过40亿元的多轮融资，投资者涵盖多个城市的国资力量。
🌐 预计到2025年，智谱将推出全新开源大模型，推动AI行业的繁荣与发展。

相关推荐

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
荐AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

AI日报栏目聚焦AI领域最新动态：1)字节跳动将发布TRAE 2.0编程工具，新增语音交互功能；2)Mistral推出开源音频模型Voxtral，支持多语言；3)月之暗面回应Kimi K2API速度慢问题，正在优化系统；4)昆仑万维发布AgentOrchestra框架，实现多智能体协作；5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资；6)Kimi-2上线，性能超越GPT-4.1；7)TRAE推出Kimi-K2模型服务，国际版支持Grok-4；8)字节跳动Seed�

人工智能编程工具字节跳动
荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

本期AI日报重点报道了多项AI领域突破性进展：1.月之暗面推出万亿参数开源大模型Kimi K2，展现强大智能能力；2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统；3.通义千问发布桌面客户端Qwen Chat；4.IndexTTS2实现影视级语音合成；5.HuggingFace开源机器人Reachy Mini热销；6.Meta推出实时视频生成模型StreamDiT；7.PixVerse新增多关键帧视频生成功能；8.特斯拉推出仅支持AMD处理器的Grok AI助手；9.OpenAI推迟开源大模型发布以加强安全测试；10.Liquid AI开源边缘AI模型LFM2；11.AI"时间穿越"特效在社交媒体走红。

人工智能开源大模型技术趋势
荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报】今日AI领域重要动态：1)阿里开源支持链式推理的音频生成模型ThinkSound，实现高保真空间音频生成；2)谷歌Veo3升级，支持静态图片生成生动视频；3)Hugging Face发布30亿参数小模型SmolLM3，性能优于Llama-3.2-3B；4)阿里开源网络智能体WebSailor，展现强大推理和检索能力；5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5；6)Vidu Q1支持最多七张参考图像生成一致性视频；7)苹果�

人工智能音频生成链式推理
荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

AI日报栏目聚焦人工智能领域最新动态：1)xAI发布旗舰模型Grok4，在数学推理和代码生成表现突出，同时推出开发者专用Grok4Code；2)微软开源Phi-4-mini模型，推理效率提升10倍，适合边缘设备；3)上海82款大模型完成备案，垂直领域应用取得突破；4)Hugging Face推出开源桌面机器人Reachy Mini，支持Python编程；5)Perplexity发布AI浏览器Comet挑战Chrome；6)OpenAI将首次发布开放权重模型，打破闭源惯例；7)谷歌医疗AI模型MedGemma系列上新，单个GPU即可运行；8)OpenAI以约65亿美元收购AI硬件公司io Products，正式进军硬件市场。
主流AI多模态大模型有哪些？超全的多模态大模型指南分享

2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据，实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型，对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

多模态大模型 AI技术发展 GPT-4V
荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

AI日报精选：1)百度开源文心大模型4.5系列，含10款新模型，性能优异；2)通义千问发布多模态模型Qwen-VL，支持图文交互；3)阿里开源3亿参数多模态模型Ovis-U1；4)华为开源盘古7B稠密和72B混合专家模型；5)美图MOKI推出AI创意广告功能，一键生成专业视频；6)谷歌Gemini 2.5 Pro API重新免费开放；7)豆瓣上线"深入研究"AI功能；8)小米"AI百宝箱"结束内测；9)北京智研院开源多模态系统OmniGen2；10)知乎升级"直答"知识库功能。

AI日报文心大模型开源模型
全球优质AI语音大模型盘点：Whisper、Gemini Speech

本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括：OpenAI Whisper（多语言识别与翻译）、Google Gemini（情感化语音生成）、Meta AudioCraft（音乐创作与风格转换）。国内讯飞星火（方言识别）、阿里通义（电商客服）、百度文心（车载场景）表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

AI语音大模型语音交互技术多语言识别
荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

本文介绍了AI日报栏目及近期AI领域多项突破性进展：1)智谱推出免费AI Slides工具，基于GLM模型快速生成高质量PPT；2)可灵AI发布可图2.1模型，支持180多种风格图像生成；3)NVIDIA推出DiffusionRenderer技术，实现视频到可编辑3D场景转换；4)墨刀AI新增30秒生成高保真原型功能；5)Higgsfield推出Soul ID工具，10张照片即可生成虚拟形象；6)谷歌DeepMind开源GenAI Processors工具库；7)谷歌Veo新增图像转视频功能；8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。
马斯克xAI推出Grok - 4 大模型将至，Meta/微美全息深耕开源AI融合加速

埃隆·马斯克旗下xAI即将发布Grok-4大模型，该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs，加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施，扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型，推动AI产业升级。当前AI赛道竞争激烈，大模型正向通用多模态演进，商业化落地成为关键。

今日大家都在搜的词：

热文

3 天
7天

AI日报：重磅！阿里新夸克升级为“AI超级框”；谷歌开源多模态模型Gemma-3；潞晨科技开源视频大模型Open-Sora 2.0

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

荐AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

主流AI多模态大模型有哪些？超全的多模态大模型指南分享

荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

全球优质AI语音大模型盘点：Whisper、Gemini Speech

荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

马斯克xAI推出Grok - 4 大模型将至，Meta/微美全息深耕开源AI融合加速

今日大家都在搜的词：

热文

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

华为鸿蒙智行：尊界S800上市50天大定破8000台

华为MatePad Pro 12.2开启预约预计7月24日正式发布

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

理想i8开启预定：7月29日上市预售价35-40万元

小米深圳大厦开园：卢伟冰现场喝小米粥

小米骨传导耳机2发布：699元 7月21日开售

尾号“8个7”手机号拍出320万元溢价率高达146%

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

淘宝闪购：日订单量再次突破8000万创新高

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

黄仁勋与雷军合影上热搜一旁小米SU7 Ultra见证科技双雄会

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

抖音：“抖音会议”App是诈骗软件会直接控制用户手机

站长商机