首页 > 业界 > 关键词  > StreamVoice最新资讯  > 正文

流媒体语音转换新突破!“StreamVoice”成功实现实时转换,仅需124毫秒延迟!

2024-01-29 10:38 · 稿源:站长之家

**划重点:**

1. 🚀 StreamVoice是一种新颖的流媒体语言模型(LM)-based零射击语音转换(VC)方法,实现实时转换,并具有较高的转换速度。

2. 🌐 该模型通过采用完全因果关联的上下文感知LM和临时独立的声学预测器,实现了流媒体能力。

3. ⚙️ 为了解决不完整上下文可能导致的性能降级问题,StreamVoice采用了教师引导的上下文预测和语义屏蔽策略。

站长之家(ChinaZ.com)1月29日 消息:最近,一支来自中国西北工业大学和字节跳动的研究团队推出了一项名为StreamVoice的创新技术,该技术基于语言模型,专为流媒体场景设计,实现零射击语音转换(VC)。

传统的VC模型通常使用从源语义到声学特征的离线转换,需要完整的源语音,限制了它们在实时场景中的应用。而StreamVoice通过采用全因果上下文感知的LM和临时独立的声学预测器,实现了流媒体能力。该模型在每个自回归时间步骤交替处理语义和声学特征,消除了对完整源语音的需求。

image.png

为了解决由于不完整上下文导致的流媒体处理中的性能降级问题,StreamVoice采用了两种策略:

1. 教师引导的上下文预测:在训练期间,教师模型总结当前和未来语义上下文,引导模型对缺失上下文进行预测。

2. 语义屏蔽策略:** 通过从前面损坏的语义和声学输入中促进声学预测,增强上下文学习能力。

值得注意的是,StreamVoice是首个LM-based的流媒体零射击VC模型,没有任何未来先行查看。实验结果展示了StreamVoice在保持与非流媒体VC系统相当的零射击性能的同时,具有流媒体转换能力。

研究团队的未来工作计划包括使用更多训练数据以提高StreamVoice的建模能力,并计划优化流媒体管道,引入高保真度编解码器和低比特率以及统一的流媒体模型。整个StreamVoice管道在单个A100GPU上的转换过程仅需要124毫秒延迟,即使没有工程优化,也比实时速度快2.4倍。

对于该项研究的所有功劳归功于西北工业大学和字节跳动的研究人员。该团队的未来工作计划还包括进一步改进StreamVoice的建模能力,以及优化流媒体管道。如果读者对这项工作感兴趣,可以查看原始论文获取更多详细信息。

论文:https://arxiv.org/abs/2401.11053

举报

  • 相关推荐
  • openEuler跨越式发展,24年将有新突破

    “开源”一词的热度越来越高,开源AI大模型,开源数据库,开源AI框架,开源操作系统等,一众词汇层出不穷。“开源”思想起源于互联网技术社区,开源的历史就是互联网的发展史。据IDC报告,2023年openEuler系在中国服务器操作系统市场份额达到36.8%,开源四年,openEuler实现了跨越式发展,成为中国首个达成市场份额第一的基础软件,达到中国基础软件产业发展的重要里程碑,为数字中国打造了坚实可靠的软件底座。

  • 实至名归!特斯拉Cybertruck获得2024年度“最酷车型”奖项

    特斯拉Cybertruck在2024年度金方向盘奖中荣获最酷车型”奖项。尽管Cybertruck尚未在欧洲市场销售,但其独特的造型和概念使其荣获最酷车型”奖。今年的获奖车型涵盖了多款纯电动车型,例如保时捷TaycanTurboGT获得了豪华车型”奖,起亚EV3获得了4万欧元以下最佳车型”奖。

  • 超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!

    法国著名开源大模型平台Mistral.ai,开源了超大多模态模型——PixtralLarge。PixtralLarge有1240亿参数,支持128K上下文,能理解文本、图表、图像等,也是Mistral.ai自家聊天助手leChat目前正在使用的视觉模型。LeChat提供了一个从模型到输出的完全集成平台,用户可以在一个平台上完成所有的多模态任务,无需在多个工具之间切换,简化了工作流程。

  • BC踏上新征程,12th bifi PV Workshop 2024 Zhuhai国际峰会成功举办

    一场顶级峰会,将全球光伏人的目光汇于“百岛之市”珠海,聚于“效率之王”BC。11月20日至22日,以“双面BC”为核心主题的12thbifiPVWorkshop2024Zhuhai国际峰会在广东珠海成功举办。作为此次峰会联合主办方,爱旭未来将与更多致力于清洁能源转型事业的光伏同仁们一道,加强产、学、研、用各环节协同合作,共建BC产业生态,共促BC技术创新,共享BC新质生产力价值,推动人类文明不断提高对阳光能量的利用效率,向着更美好繁荣的生态社会迈进。

  • 理想端到端+VLM取得新突破!“车位到车位”智驾月底推送

    快科技11月21日消息,理想汽车在广州国际汽车展览会上宣布了其全新一代智能驾驶技术架构端到端 VLM双系统的新进展。OTA 6.5版本车机系统将于11月底正式推送。据悉,此次升级的核心亮点是新增的车位到车位”智能驾驶功能,它将使车辆能够轻松应对狭窄小区道路、环岛、掉头或复杂施工等场景。此外,该智驾还支持全国高速收费站ETC自主通行及AVP代客泊车路线自动匹配,实现全程无断点的智能驾驶体验。理想汽车产品部高级副总裁范皓宇强调,理想汽车是行业中首家全量推送车位到车位”有监督智能驾驶的车企。自7月无图NOA全量推送以来,理想汽?

  • 防伪技术取得新突破!飞秒激光刻出证卡专属“指纹”

    快科技11月20日消息,据报道,西安电子科技大学杭州研究院石理平教授团队与企业合作,提出了一种基于飞秒激光诱导的物理不可克隆(PUF)纳米纹理,并将其应用于高安全等级身份证卡防伪。当前,伪造身份证、护照等高价值身份识别证件已成为个人信息安全乃至国家安全领域的重大威胁。为应对这一严峻挑战,传统防伪技术虽已构建起复杂的制证工艺体系,旨在通过提高仿造的技术难度和成本来构筑防线。然而,这一传统方法存在一个根本性缺陷:证件本身缺乏独一无二的物理防伪标识,未能实现证卡载体”与识别个人”之间的唯一性绑定防伪元素。一?

  • 2024年最后一次!双子座星雨12月14日亮相:肉眼可见

    双子座流星雨是每年三大流星雨中最稳定也是流量最高的流星雨,每年天顶流量都能达到150左右。今年双子座流星雨极大时间落在北京时间12月14日9时前后,因此13日夜晚至14日凌晨最适合观测。光污染会遮掩掉许多暗弱的流星,因此选择光污染小,环境黑暗的地点能看到更多流星。

  • 小米 SU7 Ultra 原型车亮相 2024 广州车展

    在2024年广州车展上,小米公司展出了其最新成就——小米SU7UltraPrototype原型车,该车最近在德国纽博格林北环赛道完成了圈速挑战,创下了新纪录。小米SU7Ultra原型车以其官方认证的6分46秒874的圈速,荣获纽北全球最速四门车的称号。这张照片只是为了告诉大家,小米听到了消费者的呼声,并将继续努力提高生产效率。

  • 中国往太空送快递:仅需3个多小时就成功签收

    快科技11月16日消息,据媒体报道,北京时间2024年11月16日2时32分,天舟八号货运飞船与空间站天和核心舱后向端口成功交会对接。天舟、天宫牵手成功”,天舟八号送货全程耗时3小时17分钟,小时达”被成功签收。本次任务,天舟八号货运飞船上行物资总重约6吨,包括航天员在轨驻留消耗品、推进剂、应用实验和试验装置等物资,其中科学应用物资400多公斤。11月16日早上,神舟十九号航天员乘组在地面配合下打开天舟八号舱门,开始太空拆快递”。公开资料显示,10月30日凌晨4时27分,搭载神舟十九号载人飞船的长征二号F遥十九运载火箭在酒泉卫星

  • FUNCTECH方泰科车衣:“惊艳登场2024杭州九州秋季展!”

    9 月 20 日,备受瞩目的 2024 杭州国际智慧出行、汽车改装及汽车服务业生态博览会(九州秋季展)在杭州国际博览中心盛大开幕。众多汽车行业的知名品牌齐聚一堂,共同展示汽车领域的最新产品与技术。其中,方泰科车衣以其卓越的品质和创新的技术,在展会上大放异彩。 作为汽车后市场的重要参与者,方泰科一直致力于为车主提供高品质的隐形车衣产品。此次参展,方泰

热文

  • 3 天
  • 7天