首页 > 业界 > 关键词  > Universal-1最新资讯  > 正文

AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快

2024-04-07 14:43 · 稿源:站长之家

划重点:

- 💡 Universal-1在多语言环境中取得了行业领先的表现,提供准确且鲁棒的多语言语音转文字功能。

- 💡 Universal-1能够精确估计时间戳,提高了说话者辨识和音视频编辑等下游应用的准确性。

- 💡 AssemblyAI 利用最先进的 ASR 研究,构建了 Universal-1模型,并通过 Google Cloud TPUs 等基础设施实现了高效的训练和推理。

站长之家(ChinaZ.com)4月7日 消息:AssemblyAI 最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现,该模型在准确性和鲁棒性方面均取得了行业领先地位。先说结果,Universal-1比Whisper Large-v3更准确,比fast Whisper更快,38秒可以处理60分钟音频。

Universal-1训练于1250万小时的多语言音频数据,采用了 Conformer RNN-T 架构,在英语、西班牙语和德语的语音转文字准确性上均取得10% 以上的提升。该模型还展现出多语言转录能力,能够在单个音频文件中转录多种语言。

image.png

除了语音转文字准确性外,Universal-1还具有精确的时间戳估计能力,对于音视频编辑和说话者辨识等应用具有重要意义。该模型通过优化的解码器实现了13% 的时间戳准确度提升,比 Whisper Large-V3提高了26%。此外,Universal-1还实现了高效的并行推理,比 Whisper Large-V3在相同硬件上实现了5倍的加速。

image.png

为了构建 Universal-1,AssemblyAI 利用了 Conformer 编码器和 RNN-T 模型,通过大规模的自监督学习框架和大量的标记数据进行训练。他们利用 Google Cloud TPUs 和 JAX 进行训练,构建了可靠的基础设施和系统设计。除了多语音数据外,他们还结合了各种数据增强方法,提高了模型的准确性和鲁棒性。

AssemblyAI 的研究展示了他们在语音 AI 领域的领先地位,Universal-1模型在多语言环境下取得了令人瞩目的表现,为客户提供了准确、忠实和鲁棒的语音转文字能力。值得一提的是,Universal-1非开源,仅提供API调用。

产品入口:https://top.aibase.com/tool/universal-1

举报

  • 相关推荐
  • 开启内测!360纳米AI推出“MCP万能工具箱”

    4月23日,360旗下纳米AI正式发布"MCP万能工具箱",该工具基于MCP协议开发,已接入超110款工具,覆盖办公、学术、生活服务、金融等多场景。产品负责人梁志辉介绍,MCP协议类似USB-C接口,为AI调用外部工具提供标准化连接方式。目前该工具已开启内测,首批受邀用户包括AI博主和媒体人士。实测显示,该工具能快速生成专业分析报告,效率远超人工。用户还可创建专属智能体,如医疗、金融等领域的专业助手。360表示,工具对AI应用意义重大,将推动AI从聊天机器人进化为真正的"数字员工"。

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • MCP的基本组成部分有哪些?MCP Servers服务器起到什么作用?

    在AI技术不断发展的今天,如何高效地实现AI模型与外部资源的交互成为了一个关键问题。MCP作为一种创新的解决方案,为AI应用的开发和部署提供了全新的思路。随着MCP技术的不断发展和应用,我们有理由相信,它将在未来的AI领域发挥越来越重要的作用。

  • moto Edge 60/Edge 60 Pro发布:3685元起

    摩托罗拉4月25日在海外发布Edge 60系列手机,包含标准版和Pro版。标准版配备6.7英寸曲面屏,搭载天玑7300芯片,后置5000万像素LYT-700C主摄+5000万超广角+1000万3X长焦,5200mAh电池支持68W快充。Pro版采用同款屏幕,升级为天玑8350处理器,6000mAh电池支持90W有线+15W无线充电。两款均支持IP68/IP69防护,提供类尼龙纹理、仿皮革等独特材质,潘通联名配色。售价分别为380英镑(约3685元)和600英镑(约5819元)。新品5月将在国内上市,针对本土用户做了适配优化。

  • OPENVERSE获重磅资本加持,元宇宙赛道再添生力军

    我们正处于互联网范式转变的关键阶段:从中心化的平台驱动(Web 2),迈向去中心化的用户主权网络(Web3)。在Web3 体系下,数据与内容的所有权回归用户本人,价值创造与价值流通基于协议自动执行,平台不再是控制者,而是服务型工具。这意味着,下一代互联网不再依赖于少数平台巨头,而是建立在公开透明、用户可验证、自治协作的价值网络之上。OPENVERSE作为新一代 We

  • ChatGPT受限?这 8 款免费AI工具,也可以生成“吉卜力风格”图片

    自从OpenAI将其先进的图像生成器集成到GPT-4o中后,SNS、网络社区等平台上掀起了一股“吉卜力风格头像”风潮。但随着版权争议的加剧,OpenAI给这项“吉卜力风格化”的图像转化功能加了一点点的限制。这款在线工具可以让用户进行编辑、增强、放大图像、将图像转换为视频等多样的操作,只需注册便可使用。

  • 谷歌Gemini整合Veo 2视频生成模型,8秒720P视频轻松搞定

    谷歌宣布又有一款 AI 模型将加入 Gemini,但这次它不仅仅是一个聊天机器人。

  • Arm 荣登《Fast Company》2025 年度最具创新力 AI 公司榜单

    Arm 近期荣登《Fast Company》2025 年度最具创新力公司榜单,并在人工智能 (AI) 类别中位列第七*。《Fast Company》自 2008 年发布“最具创新力公司”榜单以来,该榜单一直作为全球企业革新行业和塑造社会的基准,其依据创新性、影响力、时效性和相关性四大标准进行资格筛选。入选榜单的公司不仅代表其创新成果具备显著的商业与行业影响力,更被视为所在领域的引领者,推动世�

  • 亚马逊推出AI语音模型Nova Sonic:价格比GPT-4o便宜80%

    亚马逊正式推出新一代生成式AI语音模型NovaSonic,标志着其在人工智能语音领域取得重大突破。这款创新模型能够原生处理语音输入并生成自然流畅的语音输出,在速度、语音识别准确率和对话质量等核心性能指标上,已达到与OpenAI、谷歌等科技巨头的尖端语音模型相媲美的水平。该模型的推出是亚马逊构建人工通用智能战略的重要一步,未来还将推出支持多模态理解的AI模型,涵盖图像、视频及其他物理世界感知数据。

  • Antropic加入“AI语音助手”赛道,能追上OpenAI、谷歌们吗?

    随着 AI 语音产品的出现,人们对其模仿他人说话风格的担忧也在加剧……