首页 > 业界 > 关键词  > StreamVoice最新资讯  > 正文

流媒体语音转换新突破!“StreamVoice”成功实现实时转换,仅需124毫秒延迟!

2024-01-29 10:38 · 稿源:站长之家

**划重点:**

1. 🚀 StreamVoice是一种新颖的流媒体语言模型(LM)-based零射击语音转换(VC)方法,实现实时转换,并具有较高的转换速度。

2. 🌐 该模型通过采用完全因果关联的上下文感知LM和临时独立的声学预测器,实现了流媒体能力。

3. ⚙️ 为了解决不完整上下文可能导致的性能降级问题,StreamVoice采用了教师引导的上下文预测和语义屏蔽策略。

站长之家(ChinaZ.com)1月29日 消息:最近,一支来自中国西北工业大学和字节跳动的研究团队推出了一项名为StreamVoice的创新技术,该技术基于语言模型,专为流媒体场景设计,实现零射击语音转换(VC)。

传统的VC模型通常使用从源语义到声学特征的离线转换,需要完整的源语音,限制了它们在实时场景中的应用。而StreamVoice通过采用全因果上下文感知的LM和临时独立的声学预测器,实现了流媒体能力。该模型在每个自回归时间步骤交替处理语义和声学特征,消除了对完整源语音的需求。

image.png

为了解决由于不完整上下文导致的流媒体处理中的性能降级问题,StreamVoice采用了两种策略:

1. 教师引导的上下文预测:在训练期间,教师模型总结当前和未来语义上下文,引导模型对缺失上下文进行预测。

2. 语义屏蔽策略:** 通过从前面损坏的语义和声学输入中促进声学预测,增强上下文学习能力。

值得注意的是,StreamVoice是首个LM-based的流媒体零射击VC模型,没有任何未来先行查看。实验结果展示了StreamVoice在保持与非流媒体VC系统相当的零射击性能的同时,具有流媒体转换能力。

研究团队的未来工作计划包括使用更多训练数据以提高StreamVoice的建模能力,并计划优化流媒体管道,引入高保真度编解码器和低比特率以及统一的流媒体模型。整个StreamVoice管道在单个A100GPU上的转换过程仅需要124毫秒延迟,即使没有工程优化,也比实时速度快2.4倍。

对于该项研究的所有功劳归功于西北工业大学和字节跳动的研究人员。该团队的未来工作计划还包括进一步改进StreamVoice的建模能力,以及优化流媒体管道。如果读者对这项工作感兴趣,可以查看原始论文获取更多详细信息。

论文:https://arxiv.org/abs/2401.11053

举报

  • 相关推荐
  • 第一!世纪华通旗下Century Games登顶全球Top50手游商

    知名游戏媒体PocketGamer发布《2025年全球TOP50移动游戏商》榜单,世纪华通旗下Century Games从去年第7位跃居榜首,创下该榜单晋升速度新纪录。其成功源于持续创新与精准市场洞察:既实现《Whiteout Survival》等长线产品稳定运营,又凭借《Kingshot》等新作打造跨品类爆款,形成“双强驱动”格局。公司通过“微创新”策略结合AI技术提升研发效率,构建覆盖SLG、休闲、卡牌三大核心品类的产品矩阵。2025年上半年母公司世纪华通营收172亿元,同比增长85.5%,印证了其全球化布局与长效发展潜力。

  • ChatExcel重磅发布:基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

    ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站,重构数据全链路,打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构,实现本地流畅运行GPT-oss-120B等大型模型,保障数据安全的同时显著提升分析效率。该方案以财务场景为例,支持多任务并行处理,将原本需1天完成的月度报表压缩至2小时,解决“数据不外发”与“高效处理”的核心矛盾。

  • 霸榜双雄齐步走!Century Games专列直达东京电玩展

    世纪华通旗下Century Games为参加2025东京电玩展(TGS2025)量身定制了游戏主题“专列”,覆盖地铁广告、户外展示、裸眼3D大屏等多元传播渠道。9月25日至28日展会期间,公司包下途经展馆的列车广告位,车厢内贴满《Whiteout Survival》与《Kingshot》海报,串联涩谷、浅草寺等人流密集站点。展馆外设置巨型玻璃钢装置,以两款游戏标志性场景为背景,结合本地化舞台节目与互动体验,强化品牌影响力。此次营销不仅为展会预热,更彰显公司深耕日本市场、以“场景化+本地化”策略提升用户粘性的决心。

  • 苹果前CEO发声:OpenAI成苹果AI时代劲敌 Siri显得十分滞后

    曾担任苹果首席执行官的约翰斯库利近日公开表示,OpenAI已成为苹果几十年来首个真正意义上的竞争对手,并直言人工智能并非苹果特别擅长的领域”。 从实际情况看,苹果在人工智能竞赛中确实表现欠佳。与OpenAI、谷歌、亚马逊和Meta等公司持续推出的产品更新相比,苹果显得步伐迟缓。今年早些时候,其对AI助手Siri进行全面升级的计划被推迟,这无疑在产品推进方面遭遇�

  • 努比亚Z80 Ultra定档10月22日,能拍能打,街拍游戏机

    努比亚Z80 Ultra将于10月22日发布,主打“能拍能打,绝世有双”定位,以“街拍游戏机”为核心标签。搭载三主摄方案,包括1/1.55大底广角、35mm高定主摄和85mm长焦,覆盖多场景拍摄。配备第五代骁龙8芯片和专业游戏引擎,支持144Hz刷新率、3000Hz触控采样率,游戏体验流畅。此外还具备超声波指纹、IP68/69防护、大容量电池等配置,实现影像与性能的全面升级,堪称全能旗舰机型。

  • 全球唯一上榜扫地机!追觅 X50 Ultra 入选《时代》年度最佳发明

    10月9日,《时代》周刊公布2025年度最佳发明榜单,追觅扫地机器人X50 Ultra凭借仿生机械足越障技术、自升降激光雷达及双机械臂贴边清洁等创新功能入选,成为唯一上榜的扫地机产品。该产品突破传统清洁局限,实现6厘米越障和毫米级无死角清洁,通过技术革新提升用户体验,体现品牌以创新解决用户痛点的战略方向。

  • vivo自研蓝河操作系统3发布:vivo WATCH GT 2首发

    在2025年vivo开发者大会上,vivo正式发布自研蓝河操作系统3。该系统主打全链路智慧能力,基于轻量、模块化设计,将完整AI方案便捷部署至不同设备。即将发布的vivo WATCH GT 2首发搭载,升级智慧体验。系统内置视觉、听觉及感知唤醒等能力,原生支持AI识别、降噪等功能,并引入蓝心智能,支持问答、语音识别等。流畅度方面,搭载蓝河流畅引擎,实测资源消耗降低60%,绘制效率提升36%,调度切换开销下降58%,资源占用减少40%。

  • Matrixport 于 Token2049 新加坡期间举办 DAT 高峰论坛,聚焦下一轮市场周期话语权

    在2025年TOKEN2049新加坡峰会期间,Matrixport举办闭门论坛探讨数字资产财库战略。与会专家一致认为,DAT正从风控工具升级为机构战略核心,预计将形成寡头主导格局。Matrixport通过一站式解决方案推动行业标准化,其管理的DATCO持仓规模突破千亿美元。论坛凸显DAT作为华尔街资本入局加密市场的重要通道,未来将在全球金融体系中扮演关键角色。

  • 首款骁龙8E5真全面屏!努比亚Z80 Ultra官宣

    努比亚宣布将在本月推出年度旗舰努比亚Z80 Ultra。 根据官方公布的海报,努比亚Z80 Ultra采用真全面屏形态,是行业首款第五代骁龙8至尊版全面屏旗舰。 作为年度旗舰,努比亚Z80 Ultra不仅拥有真全面屏,影像也有大幅升级,该机采用罕见的三主摄方案,除了主摄和潜望长焦外还有一颗超大底超广角,传感器尺寸是1/1.55,拥有1m大像素,光圈还做到了f/1.8,边缘畸变控制会更好�

  • 有AI的Air!联想moto X70 Air月底发布:厚度不到6mm

    联想moto X70 Air已经官宣10月底发布,今天官方发布视预热视频透露了新机的三大亮点轻、薄、AI。 这个预热很明显是在针对iPhone Air了,在同轻薄的设计下,联想moto X70 Air却拥有国内可以随意使用的AI,而苹果却已经画饼一年多,依然遥遥无期。 联想moto X70 Air大概率是保留了实体SIM卡结构,不会存在无法上市的问题,可能最终还会比iPhone Air提前到手。 综合多方面消息来看,联

今日大家都在搜的词:

热文

  • 3 天
  • 7天