首页 > 业界 > 关键词  > Universal-1最新资讯  > 正文

AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快

2024-04-07 14:43 · 稿源:站长之家

划重点:

- 💡 Universal-1在多语言环境中取得了行业领先的表现,提供准确且鲁棒的多语言语音转文字功能。

- 💡 Universal-1能够精确估计时间戳,提高了说话者辨识和音视频编辑等下游应用的准确性。

- 💡 AssemblyAI 利用最先进的 ASR 研究,构建了 Universal-1模型,并通过 Google Cloud TPUs 等基础设施实现了高效的训练和推理。

站长之家(ChinaZ.com)4月7日 消息:AssemblyAI 最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现,该模型在准确性和鲁棒性方面均取得了行业领先地位。先说结果,Universal-1比Whisper Large-v3更准确,比fast Whisper更快,38秒可以处理60分钟音频。

Universal-1训练于1250万小时的多语言音频数据,采用了 Conformer RNN-T 架构,在英语、西班牙语和德语的语音转文字准确性上均取得10% 以上的提升。该模型还展现出多语言转录能力,能够在单个音频文件中转录多种语言。

image.png

除了语音转文字准确性外,Universal-1还具有精确的时间戳估计能力,对于音视频编辑和说话者辨识等应用具有重要意义。该模型通过优化的解码器实现了13% 的时间戳准确度提升,比 Whisper Large-V3提高了26%。此外,Universal-1还实现了高效的并行推理,比 Whisper Large-V3在相同硬件上实现了5倍的加速。

image.png

为了构建 Universal-1,AssemblyAI 利用了 Conformer 编码器和 RNN-T 模型,通过大规模的自监督学习框架和大量的标记数据进行训练。他们利用 Google Cloud TPUs 和 JAX 进行训练,构建了可靠的基础设施和系统设计。除了多语音数据外,他们还结合了各种数据增强方法,提高了模型的准确性和鲁棒性。

AssemblyAI 的研究展示了他们在语音 AI 领域的领先地位,Universal-1模型在多语言环境下取得了令人瞩目的表现,为客户提供了准确、忠实和鲁棒的语音转文字能力。值得一提的是,Universal-1非开源,仅提供API调用。

产品入口:https://top.aibase.com/tool/universal-1

举报

  • 相关推荐
  • 破解高密散热难题, 维谛技术(Vertiv) 360AI混合制冷方案重塑AI时代热管理

    文章主要探讨AI大模型训练带来的高温危机及解决方案。随着GPU集群全功率运转,数据中心面临前所未有的散热挑战,单机柜功率密度突破10kW,传统散热手段力不从心。维谛技术(Vertiv)提出"360AI高效混合制冷方案",整合风冷、液冷和自然冷却三种方式,构建全链路温控体系。方案覆盖从服务器到户外的不同场景需求,包括风液混合型、液液CP组合等多元方案,能精准应对10-130kW不同功率密度需求。同时,维谛推出业界首创风液氟泵一体机,支持快速部署,并创新研发适配AI的自然冷高温冷机,单框架制冷能力近3MW。该方案兼顾算力需求与节能政策要求,为智算时代构建更可靠的温控底座。

  • 全球圈粉6000万,被国内粉丝催着上线,PixVerse「国内版」一手实测来了!

    恭喜国内视频创作者!从此,大家又多了一个好用的 AI 视频生成工具。 「你们的产品到底什么时候在国内上线?」 最近,爱诗科技也体验了一把小说作者的待遇 —— 打开后台,发现私信全是「催上线」的信息。

  • 快手可灵AI上线2.1系列模型:生成5秒视频不到1分钟

    快手旗下可灵AI发布2.1系列模型,包含720p标准版和1080p高品质版,在性价比、生成速度和质量三大维度实现突破。新模型生成5秒视频仅需20-35灵感值,与上代保持相同成本;1080p视频生成时间不到1分钟,快于行业同级产品2-3倍。模型在动态表现、物理模拟和语义理解方面均有优化,人物动作更真实自然。可灵AI自发布以来发展迅猛,全球用户突破2200万,月活增长25倍,累计生成1.68亿视频和3.44亿图片。商业化进程加速,2025年Q1营收超1.5亿元人民币,展现强劲市场潜力。

  • 腾讯云TencentOS Server AI,助力荣耀打造高性能AI底座

    随着生成式AI技术爆发式增长,AI大模型开始渗透至手机领域。荣耀基于腾讯云TencentOS Server AI的TACO-LLM加速模块部署DeepSeek-R1等开源大模型,在内部场景应用中实现稳定性、可靠性和推理性能的大幅提升。测试显示,使用TACO-LLM后,首Token延迟最高降低6.25倍,吞吐提升2倍,端到端延迟降低100%。TACO-LLM通过投机采样技术实现大模型"并行"解码,从根本上解决计算密度问题,大幅提升解码效率。荣耀表示该方案打造了高性能AI底座,提供高吞吐低延迟的优化方案,能无缝整合现有大模型部署方案。腾讯云TACO-LLM针对企业级AI模型私有化部署挑战,专门优化了大语言模型内核运行效率。

  • 李想详解理想i8卖点:最大的空间实现最低能耗 充电还更快

    日前,理想汽车发布了2025年第一季度财报,随后,理想汽车管理层召开电话会议,理想汽车董事长兼CEO李想、CFO李铁等高管参加会议并回答分析师提问。 针对理想i8这款车的主要竞争优势和最大的卖点是什么? 李想解释:除了搭载最新的VLA司机大模型,理想i8拥有创新造型设计,就是既满足了最大的空间,又通过有效降低风阻实现了最低的能耗。

  • 618战报:快洗模式被吐槽,海尔洗衣机成功破题全网TOP1

    618期间,海尔洗衣机凭借AI直驱洁净科技突破行业快洗痛点,包揽京东、天猫平台双料销冠。针对传统快洗模式因频繁停顿导致的洗净力不足问题,海尔云溪4.0系列通过AI直驱技术实现15分钟持续运转,显著提升水流冲刷力,同时可高效清除81种常见污渍。该系列不仅斩获京东洗衣机新品金榜TOP1,更在小红书等年轻消费群体平台收获高热度,成为智慧洗涤升级首选。海尔将行业普遍存在的"快洗痛点"转化为技术优势,印证了家电市场唯有聚焦用户需求、坚持技术创新才能在激烈竞争中脱颖而出。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 阿里云首款AI原生开发环境工具AI IDE上线:适配千问3 可调用3000多款工具

    AI IDE还全面支持长期记忆、行间建议预测(NES-Next Edit Suggestion)、行间会话(Inline Chat)等能力,为开发者带来更丝滑、更智能的编程体验。 据悉,在通义灵码AI IDE上线后,通义灵码拥有插件和IDE两种产品形态。 深度融入开发者工作流,实现从辅助编码到沉浸式智能开发的跨越,全面覆盖开发者的工作场景。

  • 上出风空调比普通空调有啥优势 小米:无风感、制冷更快

    日前,小米集团大家电部总经理单联瑜发布米家空调Pro人感上出风特辑,解答了上出风空调和普通空调相比有哪些优势、人感智能有哪些优势等问题。 官方表示,米家空调Pro人感上出风显著的优势是没有风感和高效制冷。 空调采用创新上出风结构,利用康达效应让冷风沿天花板贴顶吹出,避免冷风直吹头部,更加柔和舒适。 气流设计借鉴中央空调的下进上出”方式,循环�

  • Meta AI新增生成式AI视频编辑功能:秒换服装、场景

    Meta 宣布,将在Meta AI应用、Meta.AI网站和Edits应用上推出一项生成式AI视频编辑功能。 用户可通过50多种预设AI提示词,一键实现视频中服装、场景、光影等元素的智能变换。 Meta称,全新的AI视频编辑功能直观易用,用户无需任何视频编辑专业知识即可制作高质量的视频。首先,用户可将视频上传到Meta AI应用、Meta.AI网站或