AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

2025-09-19 15:39 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://app.aibase.com/zh

1、小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米公司宣布开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio，标志着语音技术领域的重大突破。该模型基于创新的预训练架构和上亿小时的训练数据，在少样本泛化能力方面表现出色，并在多个评测基准中超越了其他闭源模型。

【AiBase提要:】
🧠 首次实现语音领域基于In-Context Learning的少样本泛化能力。
🚀 在音频理解基准 MMAU 和 Big Bench Audio S2T 任务中超越了 Google 和 OpenAI 的闭源模型。
🔧 开源完整的语音预训练方案，包括 Tokenizer、模型结构、训练方法和评测体系。
详情链接:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

2、通义万相全新动作生成模型Wan2.2-Animate正式开源

通义万相团队推出的全新动作生成模型 Wan2.2-Animate 在人物一致性、生成质量等方面有显著提升，支持动作模仿和角色扮演两种模式，广泛应用于短视频创作、动漫制作等领域。

【AiBase提要:】
🎭 输入角色图片和参考视频，模型可将视频动作迁移到图片角色中。
🎭 在角色扮演模式下，模型可替换视频中的角色为图片角色。
🖼️ 模型设计了独立的光照融合 LoRA，保证光照效果完美融合。
详情链接:https://github.com/Wan-Video/Wan2.2

3、Suno v5音乐模型即将登场，AI音乐创作迎来“变革性”升级

Suno的v5音乐模型即将发布，被视为AI音乐创作的里程碑，预计将进一步模糊人类作曲与机器生成的界限。

【AiBase提要:】
🎧 Suno v5音乐模型即将推出，引发全球关注。
💡 v5将引入更先进的语义控制和多模态输入功能。
📈 v4.5上线后，用户生成作品播放量突破数亿次。

4、生数科技获数亿元融资，视频生成引领AI商业化新潮流

生数科技在多模态AI领域取得显著进展，成功获得数亿元融资，并通过Vidu视频大模型实现了商业化的成功。未来，视频生成技术有望进一步发展并影响多个行业，但同时也需应对版权和虚假信息等问题。

【AiBase提要:】
🎥 生数科技完成数亿元A轮融资，多模态AI领域迎来新突破。
💼 Vidu视频大模型实现2000万美元年收入，商业化应用广泛。
🌐 视频生成技术将改变全球数字内容生产方式，面临版权治理等挑战。

5、OpenAI 修复 ChatGPT 漏洞，防止用户 Gmail 数据被盗取

文章指出，网络安全公司 Radware 发现了 ChatGPT 的“深度研究”功能存在严重漏洞，可能被黑客利用来窃取用户的 Gmail 邮件数据。该漏洞允许黑客通过特制邮件诱导 ChatGPT 在处理用户 Gmail 查询时，将敏感信息发送到恶意网站。OpenAI 已迅速修复此漏洞，并强调模型的安全性是其首要任务。

【AiBase提要:】
📧 ChatGPT 漏洞允许黑客通过特制邮件窃取用户 Gmail 数据。
🔒 OpenAI 迅速修复漏洞，并确认其对用户信息安全的重视。
🛡️ 常规安全防护难以检测此类攻击，用户需保持警惕。

6、谷歌在 Chrome 浏览器中引入 Gemini，助力智能搜索新体验

谷歌将 Gemini 集成到 Chrome 浏览器中，以增强用户体验并应对竞争压力。Gemini 支持跨选项卡工作、任务安排等功能，并与谷歌的多个应用深度整合。企业用户也将受益于数据保护和代理功能。

【AiBase提要:】
🌐 谷歌在 Chrome 中整合 Gemini，提升用户智能搜索体验。
📅 Gemini 支持用户理解网页内容，跨选项卡工作和安排任务。
🔒 企业用户也将享受 Gemini 带来的数据保护和代理功能。

7、Luma AI发布Ray3：以“推理”能力革新视频生成，支持16位色深

Luma AI推出的Ray3视频生成模型凭借其HDR能力和强大的“推理”功能，为视频创作带来了革命性的变化，同时支持高精度的视觉控制和专业工作流程整合。

【AiBase提要:】
🎥 Ray3支持生成10位、12位乃至16位色深的视频，并可导出为EXR文件格式，便于专业工作流程使用。
🧠 Ray3具备“推理”能力，能理解复杂指令并自我评估输出质量，实现视频迭代优化。
🖌️ 用户可通过图像绘制草图控制视频内容，提供前所未有的创作自由度。

8、法国AI公司Mistral重磅推出开源推理模型 Magistral Small 1.2

法国公司 Mistral AI 推出了其最新开源推理模型 Magistral Small 1.2，该模型拥有24B参数，并以 Apache2.0 开源许可方式发布。新版本支持高达128k的上下文处理，引入了[THINK]特殊token，增强了模型的表现力和灵活性。同时，Magistral Small 1.2还增加了视觉编码器，兼容多种框架，为开发者提供了更多便利。

【AiBase提要:】
🧠 Magistral Small 1.2 是一款具有24B参数的开源推理模型，采用 Apache2.0 许可协议发布。
🔍 新版本引入了[THINK]特殊token，提升了模型的表现力和灵活性。
🖼️ 增加了视觉编码器，使其在图像和文本综合任务中更具优势。

9、Notion重磅发布AI智能体！自动生成会议笔记、竞品分析，20分钟处理数百页文档

Notion推出了首个AI智能体，能够利用用户所有Notion页面和数据库作为上下文，自动生成会议笔记、分析报告、竞品评估等。该智能体功能强大，可创建或更新页面和数据库，并支持从外部平台触发操作。个性化设置是其亮点，用户可以为智能体设置档案页面，指导其如何引用来源、输出风格等。

【AiBase提要:】
🧠 AI智能体能自动生成会议笔记、分析报告和竞品评估。
🔄 支持从外部平台（如Slack、邮件和Google Drive）触发智能体操作。
📝 用户可自定义智能体的档案页面，指导其行为和输出风格。

10、腾讯混元3D Studio 震撼登场:3D 创作从天级提速至分钟级

腾讯混元3D Studio的发布标志着3D创作效率的革命性提升，为设计师、游戏开发者和建模师提供了强大的AI工作台，显著缩短了3D资产生产周期。

【AiBase提要:】
🧠 原生3D分割算法实现模型部件的自动拆分，支持独立编辑角色配饰和服装。
🎨 AI语义UV展开技术在1-2分钟内生成符合美术标准的UV图，提升工作效率。
🔧 智能材质编辑支持通过文本或图片输入生成高质量PBR质感纹理，实现精准材质控制。
详情链接:https://3d.hunyuan.tencent.com/studio

（举报）

相关推荐

关键词：

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
“大模型应用”新风口：“无人测试”趋势，CIO/CTO如何应对

当前CIO面临的核心挑战是如何在有限IT预算下加速企业数字化转型。传统软件测试环节因人力密集、周期冗长成为效率瓶颈，而AI技术正推动测试模式从"辅助"向"无人化"演进。通过AI Agent实现全流程自主测试，可提升测试效率300%、降低成本30%，并将产品发布周期从"月"压缩至"周"。这不仅是技术升级，更是重构IT成本结构、实现降本增效的战略支点，助力IT部门从成本中心转型为价值创造中心。

IT预算规划数字化战略 AI大模型
如何检查你的网站是否被大模型引用？AI排名查询工具推荐

本文探讨AI搜索时代网站流量获取新逻辑：传统SEO因Google搜索"零点击"现象失效，而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口，并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议：建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代，内容被LLM引用已成为新的流量生命线。

今日大家都在搜的词：

热文

3 天
7天

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

荐MiniMax让AI语音有了新基建

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

“大模型应用”新风口：“无人测试”趋势，CIO/CTO如何应对

如何检查你的网站是否被大模型引用？AI排名查询工具推荐

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

特斯拉股东批准马斯克万亿美元薪酬包

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

站长商机