比OpenAI的Whisper快50%，开源语音模型

2024-08-04 08:36 · 稿源： AIGC开放社区公众号

生成式AI初创公司aiOla在官网开源了最新语音模型Whisper-Medusa，推理效率比OpenAI开源的Whisper快50%。aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法，允许模型在每个推理步骤中预测多个token，同时不会损失性能和识别准确率。开源地址:https://git

......

本文由站长之家合作伙伴自媒体作者“AIGC开放社区公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
AI搜索可见性监控：品牌在生成式搜索时代的生存新法则

AI搜索正颠覆传统SEO：58.5%的谷歌搜索已是零点击，用户看完AI摘要即离开。ChatGPT日处理超100亿查询，预计2030年流量将超谷歌。品牌需监控AI平台推荐情况，传统工具无法追踪豆包、通义千问等国产AI。建议建立监控体系：测试核心问题曝光率，每周追踪排名变化，持续优化内容。数据显示71%美国人用AI辅助购物决策，流量正加速从谷歌转向AI。生存法则很简单：看不见的，等于不存在。
荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

游戏语音头部平台Oopz与声网达成战略合作，聚焦游戏开黑场景中的噪音问题。双方将结合AI降噪技术，针对复杂多变噪音环境，解决降噪不彻底、过度降噪等痛点，提升玩家沉浸式开黑体验。未来合作将覆盖连麦降噪、环境音消除等方向，优化主播端功能，共同打造更稳定流畅的语音解决方案。

游戏语音 AI降噪战略合作
什么是GEO优化？AI生成式引擎优化平台推荐

在数字化浪潮席卷的当下，搜索引擎的使用方式正在发生根本性变革。越来越多的用户不再只是输入碎片化的关键词，而是通过自然语言与AI对话来获取信息。根据中国信通院发布的《2025年生成式AI商业应用报告》数据显示，超60%的用户已养成借助AI对话获取各类信息的习惯。这一转变催生了全新的营销领域——GEO优化。什么是GEO优化? GEO，全称为生成式引擎优化，是

GEO优化 AI搜索生成式引擎优化
什么是AI生成式引擎优化GEO？GEO与传统SEO的核心区别

GEO（生成式引擎优化）是AI时代的流量新密码。随着生成式AI全面渗透信息获取场景，传统搜索引擎优化(SEO)正在被GEO所补充甚至部分取代。截至2025年，中国AI搜索用户规模已超6.5亿，文心一言、豆包等平台日均处理查询超过20亿次，用户已经从“翻页搜索”转向“对话获取答案”。与传统SEO关注网页排名不同，GEO的核心目标是让品牌内容被AI优先引用和推荐。研究表明，72%�

GEO AI搜索生成式引擎优化
geo生成式引擎优化是什么？GEO优化原理与工具推荐

在AI技术日新月异的今天，我们的信息获取方式正经历着一场革命。生成式引擎优化（Generative Engine Optimization，简称GEO）是AI搜索时代应运而生的新型优化策略，它被视为传统SEO在AI时代的进化版。与传统SEO专注于提升网页在搜索引擎结果中的排名不同，GEO的核心目标是让品牌信息能够被DeepSeek、豆包、文心一言等主流AI平台识别、引用并直接推荐给用户。这种转变是因为搜索�

GEO AI搜索生成式引擎优化

今日大家都在搜的词：

热文

3 天
7天

比OpenAI的Whisper快50%，开源语音模型

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

AI搜索可见性监控：品牌在生成式搜索时代的生存新法则

荐MiniMax让AI语音有了新基建

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

什么是GEO优化？AI生成式引擎优化平台推荐

什么是AI生成式引擎优化GEO？GEO与传统SEO的核心区别

geo生成式引擎优化是什么？GEO优化原理与工具推荐

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

鸿蒙智行新款享界S9官宣11月7日开订

问界M7提车关爱计划发布：等车超10周最高可补贴10000元

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

站长商机