首页 > 业界 > 关键词  > 语音最新资讯  > 正文

开源语音转字幕软件Whisper 可识别多种语种

2023-08-16 11:56 · 稿源:站长之家

站长之家(ChinaZ.com)8月16日 消息:Open AI 于2022年9月21日开源了名为 Whisper 的神经网络。该神经网络声称其英文语音辨识能力已达到人类水平,并且还支持其他98种语言的自动语音辨识。Whisper 系统的自动语音辨识模型经过训练,能够将各种语言的语音转化为文本,并将这些文本翻译成英文。

image.png

项目地址:https://github.com/openai/whisper

Whisper 的核心功能是语音识别。对于学生和工作人员来说,它可以帮助快速将会议、讲座、课堂录音整理成文字稿。对于影视爱好者来说,它可以自动生成无字幕资源的字幕,无需等待字幕组发布字幕。对于外语口语学习者来说,使用 Whisper 翻译发音练习录音可以检验口语发音水平。

与一些商业公司提供的联网语音识别服务不同,Whisper 完全在本地运行,无需联网,充分保障个人隐私,并且具有高准确率。以我自己录制的一段音频为例,长度为5分钟,约400多个字,使用 Whisper 的中等模式进行识别,仅有两个英文单词识别错误,而这两个错误是由于发音问题导致的。

下载 Whisper 模型的方式是使用 Const-me 项目,目前仅提供 Windows 版本,使用简单,需要先下载模型:https://github.com/BtbN/FFmpeg-Builds/releases

核心功能:

多语种语音识别:Whisper 可以准确识别多种语种的语音输入,包括英语和其他语种。

语音翻译:用户可以使用 Whisper 将输入的非英语语音实时翻译成英语文本。

语言识别:Whisper 能够自动检测输入语音的语种,并进行相应的处理和识别。

多任务处理:Whisper 可以同时处理多项语音处理任务,取代传统语音处理流程的多个阶段。

高鲁棒性:Whisper 在大规模多样化的语音数据集上进行训练,具有较强的鲁棒性和准确性。

举报

  • 相关推荐
  • 开源论文查询工具DocsGPT登顶GitHub热榜 支持多种文档类型

    DocsGPT是一款开源文档助手,旨在改变项目文档查找信息的方式。无需耗费时间进行手动搜索,DocsGPT可以帮助您快速找到所需的信息。开发环境支持:DocsGPT提供了开发环境设置,以便开发人员可以轻松进行本地开发和测试。

  • ElevenLabs推AI工具“AI Dubbing”,可将语音翻译成20多种语言

    美国初创公司ElevenLabs日前推出了一款名为“AIDubbing”的产品,该产品可以将任何语音内容翻译成20多种不同的语言。这一工具面向所有平台用户开放,被视为是改变语音配音领域的创新之举。AI配音工具的出现无疑为这个市场带来了更多可能性。

  • AMD宣布收购AI软件初创公司Nod.ai 以增强开源AI能力

    当地时间周二,芯片制造商AMD宣布收购人工智能软件初创公司Nod.ai,以增强其开源AI能力。AMD表示,它已签署收购Nod.ai的最终协议。在宣布收购Nod.ai之前,AMD收购了专注于推理的法国人工智能初创公司Mipsology。

  • AMD收购开源AI软件企业Nod.ai 加速AI硬件优化

    AMD宣布计划收购Nod.ai,这是一家专门针对高性能硬件优化人工智能软件的初创公司。对成立仅三年的Nod.ai的收购表明,AMD认真地想在快速增长的人工智能芯片市场中占据一席之地,据行业分析师称,该市场预计到2032年将达到3837亿美元。Nod.ai是SHARK和Torch-MLIR等多个研究人员广泛使用的AI软件库的贡献者。

  • OpenPipe开源:将昂贵的提示转化为廉价的微调模型

    OpenPipe是一个创新的AI工具,旨在将昂贵的语言模型的强大能力与更便宜的模型相结合,以满足用户的精确需求。它的核心思想是利用强大但昂贵的大型语言模型进行微调,生成适合特定需求的廉价模型。多种训练数据导出格式:支持导出多种训练数据格式,包括Alpaca和ChatGPT,同时具备去重功能,使数据准备更加高效。

  • 离线语音500ms识别速度,极越01预售25.99万元起

    智能电动化时代,从来不缺智能电动汽车,稀有的一直都是拥有高阶智能、硬核实力、合理价格,并且可以做到科技平权的智慧“新物种”。放眼当下汽车市场,这样的车真的存在吗?面对这样一台汽车机器人,你准备好和它一起开启未来AI出行生活了吗?

  • AMD 宣布将收购开源人工智能软件初创公司 Nod.ai:努力追赶英伟达

    AMD周二宣布计划收购人工智能初创公司Nod.ai,以加强其软件能力。这是为了赶超竞争对手芯片制造商英伟达。当被问及公司是否计划通过额外的收购来增强其投资组合时,Peng表示:「我们一直在寻找交易对象。

  • 开源芯片社区发布:面向物联网和开源项目

    9月18日,由北京开源芯片研究院与GitLink平台共同发起的开源芯片社区正式发布。首批入驻社区的初创成员包括平头哥、沁恒微电子、澎峰科技、清华大学数字信号处理器实验室、兆松科技、深度数智、赛昉科技、中科海芯、算能和达坦科技。倪光南院士在2023年RISC-V中国峰会上表示,“RISC-V的未来在中国中国半导体芯片产业也需要RISC-V,开源的RISC-V已成为中国业界最受欢迎的芯片架构”。

  • EmoPP模型开源:一款基于情感感知的韵律短语生成模型

    EmoPP-Demo是一款基于情感感知的韵律短语生成模型,旨在提高端到端文本转语音的自然度和可懂度。自然语音中存在着语言和情感韵律。EmoPP-Demo是情感感知韵律短语生成的先进工具,可用于提高文本到语音合成系统的情感表达能力,为语音交互和语音助手等应用提供更加自然和生动的语音输出。

  • 微软在Windows 11画图软件中测试由DALL-E驱动的文字图像工具

    微软宣布在Windows11自带的画图软件Paint中测试一个由DALL-E驱动的文字转图像创作工具PaintCocreator,用户可以通过输入文本描述来生成艺术创作图像。PaintCocreator允许用户输入文本描述后自动生成相关图像,也可以选择艺术风格后生成3个图像样例供用户选择。其他新AI工具还包括WindowsCopilot侧边栏,它是一个AI助手,可以调整PC设置、启动应用程序、提问等。