11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。
阿里巴巴通义实验室最近开源了一款名为FunClip的视频自动化剪辑工具,专为精准和便捷的视频切片设计。FunClip能够自动识别视频中的中文语音,并允许用户根据语音内容裁剪视频,大大提高了视频编辑的效率。阿里巴巴通过这些开源项目,展示了其在AI技术领域的领导地位和对开放创新的承诺。
WhisperKit是一个专为自动语音识别模型压缩与优化设计的强大工具。它不仅支持对模型进行压缩和优化提供详细的性能评估数据。通过WhisperKit官网,您可以详细了解该工具的功能和应用,并体验其卓越的自动语音识别模型优化能力。
领先的开源对话AI工具包NVIDIANeMo宣布推出ParakeetASR模型系列,这是一系列最先进的自动语音识别模型,能够以出色的准确性转录英语口语。ParakeetASR模型与Suno.ai合作开发,是语音识别领域的一大突破,为实现更自然高效的人机交互铺平了道路。要在本地访问模型并探索工具包,请访问NVIDIANeMo的Github页面。
腾讯云ASR是腾讯云推出的语音识别系统。最新升级后,腾讯云ASR能够更好地处理方言和噪声,提高识别准确率和理解能力。产品的单日调用量达到了百亿次,服务的内外部企业客户数达到了数千个。
近日,IEEE ASRU2023 自动语音识别与理解研讨会在台北市圆满闭幕。来自全球学术界和工业界的专家、科研团队和科技名企汇聚一堂,共同探讨并分享当前语音行业发展趋势及最 新研究成果。标贝科技作为银牌赞助商应邀亮相大会,向与会嘉宾展示了标贝科技丰富的多语种数据集和全方位数据解决方案。据介绍,ASRU研讨会是IEEE语音和语言处理技术委员会(SLTC)的旗舰技术活动,也
HuggingFace研究人员最近解决了在资源受限环境中部署大型预训练语音识别模型的问题。他们通过创建一个庞大的开源数据集,使用伪标记的方法,提炼出了Whisper模型的较小版本,称为Distil-Whisper。尽管WER稍高,但distil-medium.en模型提供了更直接的推理和实质性的模型压缩。
去年11月,谷歌宣布推出「1000种语言计划」,旨在构建一个机器学习++模型,支持世界上使用最广泛的1000种语言,从为全球数十亿人带来更大的包容性。其中一些语言的使用人数不到两千万,因此核心挑战是如何支持使用人数相对较少或可用数据有限的语言。USM+的基础模型架构和训练+pipeline+奠定了将语音建模扩展到未来1000种语言的根基。
韩国行政安全部将于本月底开始采用自主研发的人工智能语音识别软件,以打击电信诈骗案件。该软件基于最新深度学习技术,拥有+100+万份不同语言的语音样本数据库,包括来自+6000+多名犯罪嫌疑人的语音样本。新软件分析的电信诈骗犯语音数据将在金融监督院官网公布,并于下半年通过国际交流活动向海外发布新软件。
语音识别是AI领域的一项重要基础服务,同样也是vivo AI体系中举足轻重的能力,是Jovi输入法、Jovi语音助手等应用的基石。打造高准确率、高性能的语音识别引擎,才能给vivo亿级的语音用户带来良好的体验。昆仑芯将持续发挥在推理生态的领先优势,助力语音业务用户体验不断优化,同时也将与社区紧密合作,协力共建wenet国产生态。