开源语音转字幕软件Whisper 可识别多种语种

2023-08-16 11:56 · 稿源：站长之家

站长之家（ChinaZ.com）8月16日消息:Open AI 于2022年9月21日开源了名为 Whisper 的神经网络。该神经网络声称其英文语音辨识能力已达到人类水平，并且还支持其他98种语言的自动语音辨识。Whisper 系统的自动语音辨识模型经过训练，能够将各种语言的语音转化为文本，并将这些文本翻译成英文。

项目地址:https://github.com/openai/whisper

Whisper 的核心功能是语音识别。对于学生和工作人员来说，它可以帮助快速将会议、讲座、课堂录音整理成文字稿。对于影视爱好者来说，它可以自动生成无字幕资源的字幕，无需等待字幕组发布字幕。对于外语口语学习者来说，使用 Whisper 翻译发音练习录音可以检验口语发音水平。

与一些商业公司提供的联网语音识别服务不同，Whisper 完全在本地运行，无需联网，充分保障个人隐私，并且具有高准确率。以我自己录制的一段音频为例，长度为5分钟，约400多个字，使用 Whisper 的中等模式进行识别，仅有两个英文单词识别错误，而这两个错误是由于发音问题导致的。

下载 Whisper 模型的方式是使用 Const-me 项目，目前仅提供 Windows 版本，使用简单，需要先下载模型:https://github.com/BtbN/FFmpeg-Builds/releases

核心功能:

多语种语音识别:Whisper 可以准确识别多种语种的语音输入，包括英语和其他语种。

语音翻译:用户可以使用 Whisper 将输入的非英语语音实时翻译成英语文本。

语言识别:Whisper 能够自动检测输入语音的语种，并进行相应的处理和识别。

多任务处理:Whisper 可以同时处理多项语音处理任务，取代传统语音处理流程的多个阶段。

高鲁棒性:Whisper 在大规模多样化的语音数据集上进行训练，具有较强的鲁棒性和准确性。

（举报）

相关推荐

关键词：

语音

荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

游戏语音头部平台Oopz与声网达成战略合作，聚焦游戏开黑场景中的噪音问题。双方将结合AI降噪技术，针对复杂多变噪音环境，解决降噪不彻底、过度降噪等痛点，提升玩家沉浸式开黑体验。未来合作将覆盖连麦降噪、环境音消除等方向，优化主播端功能，共同打造更稳定流畅的语音解决方案。

游戏语音 AI降噪战略合作
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

云决科技推出VITA一站式AI办公平台，结合自研AI语音鼠标，通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型，用户无需切换工具，语音即可调用文字处理、数据分析、创意设计等多元功能，实现会议纪要生成、PPT自动制作、视频一键合成等操作，节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案，整合100多个AI应用场景和200多种模板，持续优化产品功能，致力于成为职场人士提升效率的智能助手。

智能办公 AI办公平台办公效率
豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

10月16日，火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构，具备深度语义理解能力，实现从文本朗读到情感表达的进化。对话式合成支持多轮交互，声音复刻仅需5秒即可还原音色。针对教育场景优化，复杂公式符号朗读准确率达90%，覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线，为OPPO、Keep等客户提供多场景语音服务。

语音合成声音复刻语义理解
客服回应iPhone通话语音隔离：是“语音突显”功能

今日，一则关于iPhone通话降噪的讨论登上微博热搜，多位网友实测称开启特定功能后，即便身处嘈杂环境通话，对方也几乎听不到背景噪音。对此，苹果官方客服回应称，该功能实际为iOS15及以上系统内置的“语音突显”模式，需用户手动开启后方可生效。

iPhone通话降噪语音突显模式 iOS15功能
Bing可以用语音搜索了微软增加语音搜索语音答复功能

据外媒MSPoweruser消息，微软日前宣布，Bing桌面版已经提供Bing语音搜索体验。用户可以使用此功能来搜索或提问，并从Bing快速获得音频回复。

Bing 语音搜索微软
近场语音与远场语音的区别是什么，哪些投影仪有远场语音功能

相信很多买了投影仪的朋友有过这样的体验，遥控器不见了，把家里翻得底朝天，却还是找不到，于是只能站在投影仪旁边摁按键摁得手疼。或者是，打开了某个应用，然后想回到主页，发现需要打开不同页面，才能找到想打开的应用，非常麻烦。啊，多么痛的领悟~其实，远场语音可以拯救你！近场语音与远场语音的区别是什么有人总是搞不清这二者的区别，其实区分很简单。近场语音，需要按着遥控器的语音键控制投影仪，在发出指令后仍需长按?

近场语音远场语音

今日大家都在搜的词：

热文

3 天
7天

开源语音转字幕软件Whisper 可识别多种语种

荐MiniMax让AI语音有了新基建

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

客服回应iPhone通话语音隔离：是“语音突显”功能

Bing可以用语音搜索了微软增加语音搜索语音答复功能

近场语音与远场语音的区别是什么，哪些投影仪有远场语音功能

今日大家都在搜的词：

热文

阿里回应饿了么更名：正处于灰度测试阶段

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

鸿蒙智行新款享界S9官宣11月7日开订

B站回应拉黑指定用户可屏蔽开屏广告：不实信息

问界M7提车关爱计划发布：等车超10周最高可补贴10000元

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

阿里回应饿了么更名：正处于灰度测试阶段

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

马斯克称若发现外星人证据就公开

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

站长商机