首页 > 业界 > 关键词  > AI语音压缩技术最新资讯  > 正文

Meta公布全新开源AI语音压缩技术:号称比MP3压缩率高10倍

2022-11-06 13:30 · 稿源: 快科技

11月6日消息,近日,Meta公布了一项名为EnCodec”的AI语音压缩技术该技术号称可以64kbps的速度压缩比MP3格式小10倍的音频,同时还能保证不会损失质量。

Meta指出,压缩技术对目前互联网十分重要,借助于此用户可以十分容易的发送高画质图片、语音信息等。不过,发送这些多媒体信息需要充足的带宽和存储空间,尤其是在未来的宇宙时代,因此需要效果更好的压缩技术。

据介绍,EnCodec”AI训练模型涵盖三个部分,分别为编码器、量化器和解码器。

编码器可将原始数据转换为较低影帧速率的格式,再由量化器将数据压缩到目标大小,最后,解码器通过神经网络对这些数据进行解码。

值得一提的是,虽然此前也有人尝试用神经网络压缩音频,但Meta是首个将此技术用于48kHz立体声的团队。

举报

  • 相关推荐
  • 大模型技术赋能声音创作:逗哥配音引领AI语音合成新浪潮‌

    逗哥配音作为国内领先的AI配音平台,凭借自主研发的语音合成大模型技术,已服务超千万创作者,累计生成音频量突破270亿次。其核心技术突破包括:1)支持40种语言,语音质量MOS分提升0.25,拟人度超83%;2)首创"AI分角功能",将多角色配音效率提升90%以上;3)建成覆盖近千款发音人的全球声库,包含方言、外语及影视角色音;4)创新"真人声纹+AI增强"模式,

  • 逗哥配音平台:以AI技术赋能创作,引领“声音百花齐放”时代

    逗哥配音平台凭借多元声音资源与情感化AI技术,助力创作者打造爆款视频,显著提升内容感染力与收益。其核心技术“情感贴合”通过AI深度学习,使合成声音流畅自然且富有表现力,覆盖影音解说、小说推文等多种内容类型。平台还整合文案提取等实用工具,降低创作门槛,推动内容行业效率革新。未来将持续优化技术,探索更多细分领域,赋能数字内容生态。

  • 最新AI资讯哪里看?AI技术人员如何从论文到产业应用全覆盖?

    文章指出,ArXiv、ACL和NeurIPS等论文库是AI开发者获取前沿技术的重要来源,但仅依赖论文库已不足以构建完整竞争力。作者强调需要超越论文本身,关注技术落地、产业应用及生态动态。推荐利用AIbase等技术资讯平台作为补充,提供筛选整合、趋势解读和产业视角,帮助开发者高效把握技术动态,避免闭门造车,构建复合型信息摄入体系。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • 解密会参谋 AI 核心技术:从底层算法到场景落地的全链路突破

    文章指出,当前智能设备在会议与生活场景中仍存在诸多痛点,如会议记录依赖人工整理、设备交互卡顿、跨语言沟通障碍及远程协作效率低下。会参谋依托深厚AI研发实力,推出商务顶配HM系列智能会议平台,通过自然语言处理、多模态信息融合等前沿技术,显著提升语音转写准确率至98%以上,支持十余种语言实时翻译,并具备自动提取关键信息、生成结构化会议纪要等功能。该平台在识别速度、准确性及多场景适应性方面表现突出,重新定义了人机交互体验标准。

  • AI日报:即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

    AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。

  • AIbase资讯:每天五分钟,全面掌握AI技术变革与工具动态

    AIbase资讯平台致力于为AI从业者、创业者和技术爱好者提供全面准确的全球AI动态。平台实时监控数百个AI新闻源,覆盖技术论文、产业政策、产品更新和行业事件,确保信息跨学术、应用、技术、市场等多维度。通过专业整合和实时更新,帮助用户快速掌握大语言模型、生成式AI、计算机视觉、智能体开发等关键赛道进展。平台还提供强大的AI工具导航功能,收录大量国内外工具与应用,覆盖文本生成、图像处理、代码开发等多个类别。每日五分钟,全面了解AI动态,掌握行业关键信息。

  • 时空壶X1:以技术硬实力领航AI同传领域

    时空壶X1同声传译器凭借AI技术革新翻译行业,支持40种语言93种口音识别,翻译准确率达95%。其自主研发的Babel OS系统整合语音识别、翻译与合成功能,通过端云协同技术确保复杂环境下的稳定服务。产品已应用于国际会议、商务谈判等场景,支持20人5种语言实时交互,并创新推出"演讲翻译"模式,单设备即可服务50名观众。在深圳文博会等国际活动中表现优异,噪声环境下仍保持92%识别率。X1推动行业从传统人工翻译向轻量化、智能化转型,降低企业使用门槛,成为跨国交流的核心工具。

  • 重磅!标贝科技推出「十万音色·自然语音数据集」 重构AI语音训练基础设施

    标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。

  • Soul深耕AI社交,最新技术成果亮相WAIC 2025

    2025世界人工智能大会圆满落幕,Soul+App携自研端到端全双工语音通话大模型等创新成果亮相,展示AI重塑社交体验的潜力。该技术打破传统对话模式,支持多人语音互动,提升群聊参与度。Soul还展示多模态交互突破,包括实时视频生成能力,推动社交向“情感共生”进化。未来Soul将继续以“AI+社交”为核心,打造更智能、真实的社交体验,在AI社交赛道持续领跑。

今日大家都在搜的词: