AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

2025-08-26 15:13 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://app.aibase.com/zh

1、阿里通义万相预告Wan 2.2-S2V模型：解锁AI视频音频同步生成

阿里通义万相团队在社交媒体平台X上发布了其最新AI模型Wan 2.2-S2V，该模型能够同步生成视频和音频，实现视频与音频的深度融合。这标志着多模态AI生成技术的重要进展，为内容创作者提供了更高效、更具表现力的工具。

【AiBase提要:】
🔥 Wan2.2-S2V模型具备视频与音频同步生成能力，突破传统视频生成模型的限制。
🎵 模型能生成包含唱歌音频的AI视频，展现多模态AI生成技术的创新性。
🚀 此模型可能重新定义AI视频生成领域的标准，推动沉浸感和真实感内容生成的发展。

2、字节跳动内测全新 3D 模型生成工具 “3D Model Generator”

字节跳动旗下的豆包团队正在研发一款名为“3D Model Generator”的新型3D模型生成工具，旨在为用户提供可控的大规模生成模型功能。该工具支持基于图像生成和结合图像与模型文件的生成方式，降低了3D建模的门槛，尤其在游戏开发领域具有重要意义。

【AiBase提要:】
🖼️ 支持基于图像生成3D模型，降低3D建模门槛。
⚙️ 提供结合图像和模型文件的生成方式，增强创作灵活性。
🚀 预计对外开放，扩展豆包功能，服务更广泛用户需求。

3、手机也能跑！面壁智能重磅发布MiniCPM-V4.5:4.1亿参数碾压GPT-4.1-mini

面壁智能与清华大学NLP实验室联合推出MiniCPM-V4.5，作为端侧多模态大模型，其性能卓越且部署高效。该模型在多项基准测试中表现优异，支持多语言、视频和高分辨率图像处理，适用于边缘设备，推动了AI技术的普及。

【AiBase提要:】
🌟 MiniCPM-V4.5以4.1亿参数实现高性能，超越GPT-4.1-mini等模型。
🖼️ 支持多图、视频理解及高分辨率图像处理，OCR性能领先主流模型。
📱 高效部署于边缘设备，适合移动、离线场景，降低开发门槛。
详情链接:https://huggingface.co/openbmb/MiniCPM-V-4_5

4、苹果推出AI训练新方法用任务清单替代人工评分显著提升模型性能

苹果公司研究团队提出了一种名为基于清单反馈的强化学习（RLCF）的创新训练方法，通过用具体任务清单替代传统的人工点赞评分机制，大幅提升了大语言模型执行复杂指令的能力。该方法在多个评测基准中表现出色，尤其在处理复杂多步骤任务时效果显著。

【AiBase提要:】
🍎 RLCF方法通过任务清单替代人工评分，提升模型执行复杂指令能力。
📊 在FollowBench、InFoBench等测试中，性能提升显著，最高达8.2%。
⚙️ 使用大规模模型生成检查清单，为小模型提供优化指导，但需强大计算资源支持。

5、微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

微软开源了其最新音频模型 VibeVoice-1.5B，该模型在语音合成技术上实现了多项重大突破，包括支持90分钟超长语音合成、四位发言人支持以及3200倍的音频压缩率。同时，其双 tokenizer 架构有效解决了音色与语义不匹配的问题，为语音合成领域带来了新的技术突破。

【AiBase提要:】
🔊 VibeVoice-1.5B 模型可一次性合成90分钟的超长语音，支持最多四位发言人。
💾 该模型实现3200倍的音频压缩率，保持高保真语音效果。
🤖 采用双 tokenizer 架构，解决音色与语义不匹配的问题。
详情链接:https://huggingface.co/microsoft/VibeVoice-1.5B

6、谷歌Imagen 4正式上线 Gemini API 和 Google AI Studio

谷歌公司发布了全新的文本转图像生成模型Imagen4，通过Gemini API和Google AI Studio平台向用户开放。该模型包含三个版本，分别针对不同需求优化，提升了图像生成质量、速度和成本效益，为艺术创作、广告设计等多个行业提供了强大的工具支持。

【AiBase提要:】
🌟 Imagen4标准版提升了整体图像生成质量，特别是在文本渲染准确性方面表现突出。
⚡ Imagen4Fast版本优化了快速图像生成和大批量处理任务，处理速度显著提升，使用成本降至每次生成0.02美元。
🖼️ Imagen4Ultra版本能够生成更精细的图像细节，并能更准确地遵循用户输入的文本提示，确保生成结果的一致性和准确性。

7、字节跳动AI核心人才流失视觉研究负责人冯佳时正式离职

冯佳时作为字节跳动Seed大模型视觉基础研究团队的核心负责人，其离职对公司的AI研究布局产生了一定影响。他在计算机视觉领域拥有深厚的学术背景和丰富的经验，并在加入字节跳动后取得了显著的成就。

【AiBase提要:】
🔥 冯佳时是字节跳动Seed大模型视觉基础研究团队的负责人，其离职引发广泛关注。
💡 冯佳时拥有中国科学技术大学、中科院自动化研究所和新加坡国立大学的教育背景，具有深厚的学术背景。
🚀 冯佳时在字节跳动期间领导了多模态基础模型和生成模型等前沿技术的研究，为公司技术创新做出了重要贡献。

8、英伟达发布Jetson Thor机器人计算平台

英伟达推出了全新的Jetson Thor机器人计算平台，采用Blackwell GPU架构，AI算力达到2070TFLOPS，较上一代提升7.5倍。该平台配备128GB内存，支持多AI模型运行，并集成了NVIDIA Isaac仿真平台，为开发者提供统一的开发环境。

【AiBase提要:】
🚀 Jetson Thor采用Blackwell GPU架构，AI算力达到2070TFLOPS，性能提升显著。
🧠 配备128GB超大内存，支持多任务处理和复杂场景下的高效运行。
🌐 集成NVIDIA Isaac仿真平台，提供从云端到边缘的统一开发环境。

9、Genspark推出AIDesigner:一键生成品牌全案，重新定义Al设计新格局

Genspark AI Designer是一款革命性的AI设计工具，能够一键生成完整的品牌设计方案，涵盖Logo、包装、网站设计等多个领域，极大地降低了设计门槛，并受到全球设计界与科技行业的广泛关注。

【AiBase提要:】
🎨 Genspark AI Designer支持多模态输入，可生成矢量图标、3D渲染和动画视频等多种设计资产。
🌐 该工具通过自然语言指令完成复杂设计任务，实现品牌Logo、包装、网站等全链路创意解决方案。
💡 AI Designer重新定义了品牌设计流程，为创作者和企业提供了高效且经济的解决方案。
详情链接:https://www.genspark.ai/ai_designer

10、豆包正式上线未成年人保护模式

豆包推出未成年人保护模式，旨在帮助家长管理孩子的使用行为。该模式关闭了部分功能，如推荐视频、第三方网页浏览等，但保留了翻译和深入研究等功能。

【AiBase提要:】
🔒 未成年人保护模式可由家长通过密码开启，限制部分内容的访问。
📺 推荐视频、第三方网页浏览等功能在该模式下默认关闭。
🌐 翻译和深入研究等功能仍可正常使用，确保学习和探索不受影响。

（举报）

相关推荐

关键词：

免费生成10秒高清视频！通义App接入通义万相2.5

在2025云栖大会上，阿里发布通义万相Wan2.5 Preview系列模型，覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步，可生成匹配画面的人声、音效和BGM，时长从5秒提升至10秒，支持24帧/秒的1080P高清输出，降低影视级创作门槛。模型指令遵循能力增强，支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频，每日免费使用15次，支持导出无水印视频。同时，图像生成能力全面升级，可生成中英文字符和图表，支持图像编辑功能，一句话即可完成P图。

通义万相文生视频图生视频
Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

Sora2爆火之后，随之而来的AI视频领域的新产品。来自我的好朋友，曹越老师的Sand.ai。凌晨，他们终于上线了他们全新的音画同步视频模型GAGA-1，在人物表演上，我觉得，已经算是现在的TOP级了。

AI视频 GAGA-1 音画同步
荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

近日AI领域迎来多项重要更新：阿里夸克发布AI创作平台“造点”，整合通义万相Wan2.5与Midjourney V7，支持音画同步视频生成；Wan2.5-Preview实现多模态输入与电影级视频同步生成，提升视觉创作能力；可灵AI推出视频生成模型2.5Turbo并降价30%，降低使用门槛；阿里通义推出Qwen3-ASR-Toolkit，实现小时级音视频转录；谷歌相册AI编辑功能扩展至安卓用户，支持语音修图；谷歌Mixboard工具助力创意设计，生成情绪板；Qwen发布Qwen3-Max模型，在代码生成与智能体能力表现突出；Figma推出MCP服务器，实现设计到代码的一键转换，提升开发效率。

AI创作平台通义万相音画同步
荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

本期AI日报聚焦多项技术突破：Veo 3.1视频生成模型实现角色一致性与多场景叙事升级；蚂蚁发布万亿参数Ling-1T语言模型，推理能力领跑行业；xAI推出电影级视频生成模型Imagine v0.9；软银斥资53.75亿美元收购ABB机器人业务布局物理AI；Vercel v0新增图像编辑功能简化设计流程；OpenAI Sora2首日安装量飙升至应用商店第三，同时引发深度伪造伦理担忧；Lovart平台限时免费开放Sora2无水印视频生成；ChatGPT推出应用生态，正式升级为多功能服务平台。

生成式视频 Veo 3.1
Sora 2生成已故名人视频引亲属不满 OpenAI回应：重视反馈将迅速纠正失误

OpenAI 近日推出的 Sora 2 模型引发广泛关注，其默认禁止生成在世公众人物视频，用户纷纷尝试生成各类创意内容。然而，创作者与观众很快发现这一限制存在明显漏洞该模型允许生成已故公众人物的影像，从而在伦理层面引发争议。社交媒体上已涌现大量AI复活”名人的案例，例如李小龙主持DJ现场、迈克尔杰克逊表演单口喜剧等。尽管OpenAI在每段生成视频上添加动态水印，�

OpenAI Sora 2模型
荐AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

AI日报今日聚焦多项技术突破：小米开源首个端到端语音大模型Xiaomi-MiMo-Audio；通义万相推出全新动作生成模型Wan2.2-Animate；Suno即将发布革命性音乐模型v5；生数科技获数亿融资，视频生成技术商业化加速。同时关注OpenAI修复ChatGPT安全漏洞，谷歌将Gemini集成至Chrome浏览器，Luma AI发布支持16位色的Ray3视频生成模型，法国Mistral推出开源推理模型Magistral Small 1.2，Notion发布AI智能体，腾讯混元3D Studio提升3D创作效率。

AI 语音大模型小米开源
荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0，在多项基准测试中表现优异；阿里通义7款模型登顶Hugging Face榜单，Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限，可自动完成视觉任务；特斯拉推进人形机器人量产，马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密，苹果内部测试聊天机器人Veritas优化Siri，YouTube推出AI音乐主播增强互动，LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

AI 开源模型高性能思考模型
全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

国庆假期前夕，OpenAI发布了Sora 2，一款旗舰视频和音频生成模型。据介绍，Sora 2可以完成以前的视频生成模型难以完成的事情，比如运动员的奥林匹克体动作、桨板上的后空翻，准确模拟浮力和刚度的动态等等，并擅长现实主义、电影和动漫风格。一则来自《连线》杂志的重磅爆料更是指出，OpenAI的下一步棋，并非简单升级一个模型，而是要亲自下场，推出一个独立的AI影�

OpenAI Sora 2
荐爱诗科技，一家AI视频创业公司的生存哲学

“你还是回去吧，大模型在中国没有机会。” 2023年刚创业，爱诗科技创始人兼CEO王长虎收到了天使投资人朱啸虎的“劝退”。但两年时间过去，两个节点颠覆了投资人对AI视频生成赛道的固有印象。先是

AI视频生成 Sora爆火商业化元年
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云

今日大家都在搜的词：

热文

3 天
7天

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

免费生成10秒高清视频！通义App接入通义万相2.5

Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

Sora 2生成已故名人视频引亲属不满 OpenAI回应：重视反馈将迅速纠正失误

荐AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

荐爱诗科技，一家AI视频创业公司的生存哲学

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

今日大家都在搜的词：

热文

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

京东双11今晚开启：现货开卖官方直降低至一折

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

影视飓风Tim送罗永浩顶配iPhone17ProMax 后者锐评：越做越难看

AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Ga

新款智界R7/S7上市44天大定破38000台

荣耀Magic8系列暨MagicOS10发布会定档10月15日

11月开启！vivo OriginOS 6公测适配计划公布

iQOO 15搭载自研电竞芯片Q3 能效提升40%

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

雷军：小米17系列首销权益延续至10月31日

京东双11今晚开启：现货开卖官方直降低至一折

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

影视飓风Tim送罗永浩顶配iPhone17ProMax 后者锐评：越做越难看

AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Ga

雷军：小米17系列开售仅5天销量破100万台

新款智界R7/S7上市44天大定破38000台

站长商机

AI日报：Wan 2.2-S2V模型即将发布；​字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

今日大家都在搜的词：

热文

站长商机

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型