首页 > 原创 > 关键词  > 语音合成最新资讯  > 正文

AI日报:AI动画神器Seko 2.0上线;超强语音模型Qwen3-TTS发布;2025 年度字词候选公布

2025-12-11 16:20 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、阿里发布超强语音合成模型 Qwen3-TTS,49 种音色满足你的声音需求!

阿里通义千问发布新一代语音合成大模型Qwen3-TTS,提供49种多角色音色和10种语言及方言支持,具有领先的词错误率(WER)和拟人化程度。该模型可广泛应用于播客、有声书、游戏NPC等场景,且免费开放API,适合商业用途。

image.png

【AiBase提要:】

🎧 49种多角色音色,涵盖性别、年龄、地域及角色设定,一键切换

🌐 支持10种主流语言及10种中国方言,跨语种WER领先

🚀 免费接入且商用友好,API无调用次数限制

2、阿里发布全模态大模型Qwen3-Omni-Flash:实时流式输出,支持 119 种语言交互

阿里发布全模态大模型Qwen3-Omni-Flash,支持实时流式交互和多语言处理,同时提供个性化体验和性能提升,适用于直播、短视频等场景。

image.png

【AiBase提要:】

🧠 实时流式全模态交互,支持多种语言输入与输出。

🎨 个性化体验,System Prompt开放自定义权限。

📈 性能提升,基准测试全面跃升。

3、Gemini TTS 2.5正式上线:Google推情绪级语音,24语种+多角色一键切换

Google发布了Gemini 2.5 Flash与Pro文本转语音预览模型,全面替代今年5月的旧版系统。新模型具备情绪级表达、上下文自适应节奏及24语种多角色对话功能,开发者可免费测试,并预计在2025年Q1进入生产环境。

image.png

【AiBase提要:】

🧠 情绪级表达:支持从「欢快乐观」到「阴郁严肃」一键切换,提升语音表现力。

🔄 节奏自适应:根据上下文自动调整快慢,使叙事更生动。

🌐 多角色+24语种:支持跨语种一致,角色不串线,实现自然对话过渡。

详情链接:https://x.com/GoogleAIStudio/status/1998876411734692107

4、商汤Seko 2.0上线:一句话生成100集连贯动画,AI动画剧制作成本降至「一杯奶茶钱」

商汤科技推出的Seko2.0 AI视频Agent,能够通过一句话创意生成100集连贯的动画短剧,具有极低的制作成本和高度的自动化特性。

image.png

【AiBase提要:】

🎬 Seko2.0支持用户输入一句话创意生成100集连贯动画短剧

🔄 采用多剧集记忆+全局一致性架构,确保人物和剧情零崩坏

💰 商汤科技宣称制作成本仅需一杯奶茶钱

详情链接:https://seko.sensetime.com/explore

5、2025 年度字词候选公布!DeepSeek 与草台班子入选

汉语盘点2025活动公布了年度字词候选前五位,包括国内和国际字词,反映了社会的创新与发展趋势,以及国际形势的变化。

【AiBase提要:】

🧠 2025年度字词候选公布,涵盖国内、国际字词四大板块。

📅 最终结果将于12月19日揭晓,引发公众期待。

💬 候选字词反映了社会现象与时代脉动,值得关注。

6、Adobe 与 ChatGPT 联手推出全新图像与 PDF 编辑功能

Adobe 与 ChatGPT 合作,推出了一种全新的使用方式,让用户能够通过 ChatGPT 直接编辑 Photoshop、Acrobat 和 Adobe Express 等应用。用户只需在对话中输入相关应用的名称,并附上所需编辑的文件,然后用简单的日常语言描述需求,就可以轻松完成图片和 PDF 的设计与编辑,而不需要在不同软件间频繁切换。

image.png

【AiBase提要:】

🖼️ 用户只需描述需求,即可简化操作,提供多种编辑选项。

📑 该集成支持 Photoshop、Acrobat 和 Adobe Express,方便轻松处理各种设计任务。

🌟 Adobe 与 ChatGPT 合作,让用户通过对话直接编辑图片和 PDF。

7、告别“爬楼”焦虑!腾讯元宝AI推出QQ群消息总结功能,重塑群聊体验

腾讯元宝推出的智能未读消息总结功能,通过人工智能技术将冗长的群聊记录提炼成要点明确的总结报告,解决用户因信息过载产生的焦虑和错过重要信息的问题。该功能不仅提供多维度的智能化梳理,还支持多平台布局,加速AI技术的普及应用。

【AiBase提要:】

🤖 智能未读消息总结功能,提升QQ群聊效率。

📊 多维度智能化梳理,包括热聊话题归类、精准信息追踪和群文件整合。

🌐 多平台布局,加速AI普惠,覆盖电脑版、浏览器插件及移动APP。

8、ChatGPT 跃居苹果商店下载榜首,成美国用户最爱应用

ChatGPT 在 2025 年成为苹果美国市场上下载量最高的免费应用,首次登顶榜首,显示出人工智能在美国用户日常生活中的重要性。

【AiBase提要:】

🤖 ChatGPT 成为苹果美国市场下载量最高的免费应用

📊 2025 年榜单显示 ChatGPT 首次登顶,超越传统热门应用

🌐 AI 聊天工具的受欢迎程度上升,OpenAI 或挑战谷歌在搜索市场的地位

举报

  • 相关推荐
  • AI日报:千问Qwen3-VL双子星开源;腾讯内测“上头蛙”AI互动故事小程序;小鹏祭出“物理世界大模型”

    本期AI日报聚焦多领域进展:阿里开源Qwen3-VL多模态检索模型,腾讯推出AI互动故事小程序“上头蛙”,小鹏发布第二代VLA模型剑指L4智驾。MiniMax港股上市首日暴涨42%,高德世界模型登顶国际榜单。阿里千问下载量突破7亿,单月击败Meta、OpenAI总和。谷歌Gmail引入AI专属收件箱与自然语言搜索,马斯克xAI进军“氛围编程”推Grok Build。

  • 阿里两款千问语音新模型齐发:动物也能“原声”说人话了!

    阿里今日升级语音模型家族Qwen3-TTS,发布音色创造Qwen3-TTS-VD和音色克隆Qwen3-TTS-VC两款全新模型。 在生成效果上,全新模型的表现显著超越GPT-4o。 Qwen3-TTS新模型可实现DIY声音设计和像素级音色模仿,甚至让动物原生”开口说人话。 其音色自然、效果稳定、生成高效,可大大加速语音大模型在有声小说、AI漫剧、影视配音等多专业领域落地。 其中,音色创造模型支持通过自然�

  • 什么是GEO品牌监控?怎么看自己的品牌在通义千问里有没有被推荐?

    本文探讨了在AI搜索时代,品牌如何监测在通义千问等国产AI模型中的曝光情况。文章介绍了GEO品牌监控的概念,即追踪品牌在AI回答中的提及率、排名及平台分布。推荐使用GEObase工具,它能监控五大国产AI平台,提供曝光率、竞品对比等数据。若发现提及率低,建议在知乎、微信公众号等中文平台多发内容,并针对常见问题撰写答案。品牌监控需定期进行,以适应AI模型更新和竞争变化,确保品牌在AI时代不“失踪”。

  • 千问APP与通义系列大模型,才是智能汽车的“黄金组合”

    近年来,车企普遍采用大模型提升智能座舱体验,但效果未达预期。行业共识是,仅接入大模型不够,需构建完整的场景化智能体验。阿里通义系列大模型能力领先,已服务超百万客户,成为众多车企开发智能座舱的首选。千问APP作为超级应用,整合阿里生态资源,能打通车载场景的各类需求,为用户提供端到端的智能服务。未来智能座舱的关键在于系统级玩家,能协同云端智能与生态,真正理解并减轻用户负担。

  • 完美收官!Yoosee 亮相阿里云通义智能硬件展

    2026年初,深圳阿里云通义智能硬件展上,Yoosee展示了其端云协同AI战略。通过星瀚AI大模型,Yoosee将传统监控从“被动提醒”升级为“主动理解”,用户可通过自然语言交互获取精准事件摘要。现场亮相的智能硬件,如AI观鸟器、低功耗摄像机等,均体现了软件定义摄像头的理念。Yoosee正从硬件销售转向“硬件+软件+云服务”的VSaaS模式,致力于成为AI视觉时代的“操作系统”提供商。

  • 千问月活破3000万,阿里打响AI应用落地战

    12月9日,新浪科技报道称阿里巴巴已成立“千问C端事业群”。据悉,该事业群由原智能信息与智能互联两个事业群合并重组而来,由阿里巴巴集团副总裁吴嘉负责。其业务范围包含千问APP、夸克、AI硬件、UC、书旗等。 一天之后,已公测23天的千问,在官方微信公众号上宣布月活破3000万,并向用户开放AI PPT、AI写作、AI文库、AI讲题四项办事新功能。

  • AI日报:腾讯开源3D动作神器混元Motion1.0;罗永浩发布AI讲书App“且听”;夸克AI眼镜首次OTA

    本期AI日报聚焦多领域动态:腾讯开源10亿参数文生3D动作模型,赋能游戏影视;罗永浩发布AI讲书App“且听”,年费不足40元;京东上线自营租赁业务,推动机器人技术普及;夸克AI眼镜首次OTA升级,新增图文备忘等功能;MiniMax启动港股IPO,拟募资约41.9亿港元;阿里通义实验室推出多模态智能代理MAI-UI,性能超越同行;百度文心AI发布年度提示词“工作”,反映社会关注;2026年“两新”政策新增智能眼镜等产品补贴,加速AI终端落地。

  • AI日报:Meta宣布收购Manus;腾讯混元发布1.5版开源翻译模型;OpenAI更新手机版ChatGPT

    本期AI日报聚焦行业动态与产品更新。Meta以数十亿美元收购AI初创公司Manus,强化通用AI代理技术。腾讯混元发布1.5版开源翻译模型,端侧部署性能提升。上海16部门联合发文推动“AI+消费”,将发放算力券、模型券等支持工具。微软Copilot全线升级GPT-5.2,免费开启“专家级”工作流。Zara利用AI技术数字化编辑模特照片以削减成本,引发行业讨论。Plaud Note Pro AI录音笔凭借超薄离线和隐私保护设计,成为专业用户首选。OpenAI更新手机版ChatGPT,用户可调节AI思考深度。Claude Code可视化工作流编辑器发布,通过拖拽节点即可构建AI自动化流程。

  • AI日报:字节发布Seed Prover1.5;MiniMax M2.1开源;通义开源语音交互大模型Fun-Audio-Chat-8B

    本期AI日报聚焦多项AI领域新进展:字节跳动发布Seed Prover 1.5,在形式化数学推理领域取得突破;阿里通义开源语音交互模型Fun-Audio-Chat-8B,具备超低延迟和情感感知能力;MiniMax开源M2.1编码模型,性能超越闭源巨头;知乎发布2025年度AI产品榜单,豆包位居榜首;Anthropic推出开源Agent Skills知识库,助力Claude模型技能拓展;Lima v2.0发布,从容器工具进化为安全AI工作流平台;讯飞星�

  • Sora的AI TikTok梦迅速破产了

    ​说“ Sora的60日留存率是0”有点夸张,毕竟这个说法诞生时,Sora App上线还不满60天。不过这款明星产品的发展的确不怎么乐观。 根据a16z合伙人前段时间贴出的一组对比,Sora留存率远不如TikTok,首日留存率只有10%,30天留存率只有1%。对比来看,TikTok对应的留存率分别是50%和32%,差距明显。 同时从用户反馈来看,浏览这个App,可能很快会感到厌倦。去看看网络社区讨论,会�

今日大家都在搜的词: