首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:小米开源首个原生端到端语音大模型;通义万相Wan2.2-Animate正式开源;Suno v5即将上线

2025-09-19 15:39 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米公司宣布开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,标志着语音技术领域的重大突破。该模型基于创新的预训练架构和上亿小时的训练数据,在少样本泛化能力方面表现出色,并在多个评测基准中超越了其他闭源模型。

image.png

【AiBase提要:】

🧠 首次实现语音领域基于In-Context Learning的少样本泛化能力。

🚀 在音频理解基准 MMAU 和 Big Bench Audio S2T 任务中超越了 Google 和 OpenAI 的闭源模型。

🔧 开源完整的语音预训练方案,包括 Tokenizer、模型结构、训练方法和评测体系。

详情链接:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

2、通义万相全新动作生成模型Wan2.2-Animate正式开源

通义万相团队推出的全新动作生成模型 Wan2.2-Animate 在人物一致性、生成质量等方面有显著提升,支持动作模仿和角色扮演两种模式,广泛应用于短视频创作、动漫制作等领域。

image.png

【AiBase提要:】

🎭 输入角色图片和参考视频,模型可将视频动作迁移到图片角色中。

🎭 在角色扮演模式下,模型可替换视频中的角色为图片角色。

🖼️ 模型设计了独立的光照融合 LoRA,保证光照效果完美融合。

详情链接:https://github.com/Wan-Video/Wan2.2

3、Suno v5音乐模型即将登场,AI音乐创作迎来“变革性”升级

Suno的v5音乐模型即将发布,被视为AI音乐创作的里程碑,预计将进一步模糊人类作曲与机器生成的界限。

image.png

【AiBase提要:】

🎧 Suno v5音乐模型即将推出,引发全球关注。

💡 v5将引入更先进的语义控制和多模态输入功能。

📈 v4.5上线后,用户生成作品播放量突破数亿次。

4、生数科技获数亿元融资,视频生成引领AI商业化新潮流

生数科技在多模态AI领域取得显著进展,成功获得数亿元融资,并通过Vidu视频大模型实现了商业化的成功。未来,视频生成技术有望进一步发展并影响多个行业,但同时也需应对版权和虚假信息等问题。

【AiBase提要:】

🎥 生数科技完成数亿元A轮融资,多模态AI领域迎来新突破。

💼 Vidu视频大模型实现2000万美元年收入,商业化应用广泛。

🌐 视频生成技术将改变全球数字内容生产方式,面临版权治理等挑战。

5、OpenAI 修复 ChatGPT 漏洞,防止用户 Gmail 数据被盗取

文章指出,网络安全公司 Radware 发现了 ChatGPT 的“深度研究”功能存在严重漏洞,可能被黑客利用来窃取用户的 Gmail 邮件数据。该漏洞允许黑客通过特制邮件诱导 ChatGPT 在处理用户 Gmail 查询时,将敏感信息发送到恶意网站。OpenAI 已迅速修复此漏洞,并强调模型的安全性是其首要任务。

【AiBase提要:】

📧 ChatGPT 漏洞允许黑客通过特制邮件窃取用户 Gmail 数据。

🔒 OpenAI 迅速修复漏洞,并确认其对用户信息安全的重视。

🛡️ 常规安全防护难以检测此类攻击,用户需保持警惕。

6、谷歌在 Chrome 浏览器中引入 Gemini,助力智能搜索新体验

谷歌将 Gemini 集成到 Chrome 浏览器中,以增强用户体验并应对竞争压力。Gemini 支持跨选项卡工作、任务安排等功能,并与谷歌的多个应用深度整合。企业用户也将受益于数据保护和代理功能。

image.png

【AiBase提要:】

🌐 谷歌在 Chrome 中整合 Gemini,提升用户智能搜索体验。

📅 Gemini 支持用户理解网页内容,跨选项卡工作和安排任务。

🔒 企业用户也将享受 Gemini 带来的数据保护和代理功能。

7、Luma AI发布Ray3:以“推理”能力革新视频生成,支持16位色深

Luma AI推出的Ray3视频生成模型凭借其HDR能力和强大的“推理”功能,为视频创作带来了革命性的变化,同时支持高精度的视觉控制和专业工作流程整合。

【AiBase提要:】

🎥 Ray3支持生成10位、12位乃至16位色深的视频,并可导出为EXR文件格式,便于专业工作流程使用。

🧠 Ray3具备“推理”能力,能理解复杂指令并自我评估输出质量,实现视频迭代优化。

🖌️ 用户可通过图像绘制草图控制视频内容,提供前所未有的创作自由度。

8、法国AI公司Mistral重磅推出开源推理模型 Magistral Small 1.2

法国公司 Mistral AI 推出了其最新开源推理模型 Magistral Small 1.2,该模型拥有24B参数,并以 Apache2.0 开源许可方式发布。新版本支持高达128k的上下文处理,引入了[THINK]特殊token,增强了模型的表现力和灵活性。同时,Magistral Small 1.2还增加了视觉编码器,兼容多种框架,为开发者提供了更多便利。

【AiBase提要:】

🧠 Magistral Small 1.2 是一款具有24B参数的开源推理模型,采用 Apache2.0 许可协议发布。

🔍 新版本引入了[THINK]特殊token,提升了模型的表现力和灵活性。

🖼️ 增加了视觉编码器,使其在图像和文本综合任务中更具优势。

9、Notion重磅发布AI智能体!自动生成会议笔记、竞品分析,20分钟处理数百页文档

Notion推出了首个AI智能体,能够利用用户所有Notion页面和数据库作为上下文,自动生成会议笔记、分析报告、竞品评估等。该智能体功能强大,可创建或更新页面和数据库,并支持从外部平台触发操作。个性化设置是其亮点,用户可以为智能体设置档案页面,指导其如何引用来源、输出风格等。

image.png

【AiBase提要:】

🧠 AI智能体能自动生成会议笔记、分析报告和竞品评估。

🔄 支持从外部平台(如Slack、邮件和Google Drive)触发智能体操作。

📝 用户可自定义智能体的档案页面,指导其行为和输出风格。

10、腾讯混元3D Studio 震撼登场:3D 创作从天级提速至分钟级

腾讯混元3D Studio的发布标志着3D创作效率的革命性提升,为设计师、游戏开发者和建模师提供了强大的AI工作台,显著缩短了3D资产生产周期。

image.png

【AiBase提要:】

🧠 原生3D分割算法实现模型部件的自动拆分,支持独立编辑角色配饰和服装。

🎨 AI语义UV展开技术在1-2分钟内生成符合美术标准的UV图,提升工作效率。

🔧 智能材质编辑支持通过文本或图片输入生成高质量PBR质感纹理,实现精准材质控制。

详情链接:https://3d.hunyuan.tencent.com/studio

举报

  • 相关推荐
  • AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布

    本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • “大模型应用”新风口:“无人测试”趋势,CIO/CTO如何应对

    当前CIO面临的核心挑战是如何在有限IT预算下加速企业数字化转型。传统软件测试环节因人力密集、周期冗长成为效率瓶颈,而AI技术正推动测试模式从"辅助"向"无人化"演进。通过AI Agent实现全流程自主测试,可提升测试效率300%、降低成本30%,并将产品发布周期从"月"压缩至"周"。这不仅是技术升级,更是重构IT成本结构、实现降本增效的战略支点,助力IT部门从成本中心转型为价值创造中心。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

今日大家都在搜的词: