首页 > 业界 > 关键词  > StreamVoice最新资讯  > 正文

流媒体语音转换新突破!“StreamVoice”成功实现实时转换,仅需124毫秒延迟!

2024-01-29 10:38 · 稿源:站长之家

**划重点:**

1. 🚀 StreamVoice是一种新颖的流媒体语言模型(LM)-based零射击语音转换(VC)方法,实现实时转换,并具有较高的转换速度。

2. 🌐 该模型通过采用完全因果关联的上下文感知LM和临时独立的声学预测器,实现了流媒体能力。

3. ⚙️ 为了解决不完整上下文可能导致的性能降级问题,StreamVoice采用了教师引导的上下文预测和语义屏蔽策略。

站长之家(ChinaZ.com)1月29日 消息:最近,一支来自中国西北工业大学和字节跳动的研究团队推出了一项名为StreamVoice的创新技术,该技术基于语言模型,专为流媒体场景设计,实现零射击语音转换(VC)。

传统的VC模型通常使用从源语义到声学特征的离线转换,需要完整的源语音,限制了它们在实时场景中的应用。而StreamVoice通过采用全因果上下文感知的LM和临时独立的声学预测器,实现了流媒体能力。该模型在每个自回归时间步骤交替处理语义和声学特征,消除了对完整源语音的需求。

image.png

为了解决由于不完整上下文导致的流媒体处理中的性能降级问题,StreamVoice采用了两种策略:

1. 教师引导的上下文预测:在训练期间,教师模型总结当前和未来语义上下文,引导模型对缺失上下文进行预测。

2. 语义屏蔽策略:** 通过从前面损坏的语义和声学输入中促进声学预测,增强上下文学习能力。

值得注意的是,StreamVoice是首个LM-based的流媒体零射击VC模型,没有任何未来先行查看。实验结果展示了StreamVoice在保持与非流媒体VC系统相当的零射击性能的同时,具有流媒体转换能力。

研究团队的未来工作计划包括使用更多训练数据以提高StreamVoice的建模能力,并计划优化流媒体管道,引入高保真度编解码器和低比特率以及统一的流媒体模型。整个StreamVoice管道在单个A100GPU上的转换过程仅需要124毫秒延迟,即使没有工程优化,也比实时速度快2.4倍。

对于该项研究的所有功劳归功于西北工业大学和字节跳动的研究人员。该团队的未来工作计划还包括进一步改进StreamVoice的建模能力,以及优化流媒体管道。如果读者对这项工作感兴趣,可以查看原始论文获取更多详细信息。

论文:https://arxiv.org/abs/2401.11053

举报

  • 相关推荐
  • 大家在看
  • 文本直接生成2分钟视频,即将开源模型StreamingT2V

    Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出了StreamingT2V视频模型。通过文本就能直接生成2分钟、1分钟等不同时间,动作一致、连贯、没有卡顿的高质量视频。视频中的物体运动姿态丰富,场景和物体随时间的演变更加自然流畅,没有突兀的断层或冻结情况出现。

  • Sora平替?2分钟超长AI视频模型StreamingT2V免费开源 试玩地址公布

    PicsartAIResearch等团队联合发布了一款名为StreamingT2V的AI视频模型,该模型能够生成长达1200帧、时长达2分钟的视频,这在技术上超越了之前备受关注的Sora模型。StreamingT2V的发布不仅在视频长度上取得了突破它是一个免费开源的项目,可以无缝兼容SVD和animatediff等模型,这对于开源生态的发展具有重要意义。我们或许可以期待更多基于这类技术的创新应用,例如在电影制作、游戏�

  • 图像转文字工具2txt 可识别图像中文字并转换为可编辑文本

    2txt是一个基于AI的图像转文字工具,使用ClaudeHaiku和VercelAISDK创建。这个工具不仅可以将任意图像上的文字识别出来能将其转换成可编辑的文本格式。用户只需上传图片,系统就会自动识别图片中的文字,并将其转换成可编辑的文本格式,极大地提高了工作效率。

  • Mutable AI:自动将你的GitHub代码库转换维基文档

    MutableAI是一款创新的工具,它通过将GitHub代码库自动转换成易于理解的维基文档,极大地提高了代码的可访问性和透明度。这项服务不仅对开发者有用,也使得非专业人士能够更好地理解和参与到项目中来。目前还有限时优惠活动,使用优惠码XDOT COM,用户可以以每月1美元的价格享受MutableAI的服务,这对于预算有限的开发者或小型团队来说是一个巨大的吸引力。

  • 字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

    视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin,专为视觉语言时代设计。更多大模型算法相关岗位开放中。

  • “再出发·戈峻2024谷雨演讲”在深圳成功举办

    4月19日,由时代传媒集团联合主办的“再出发·戈峻2024谷雨演讲”在深圳举行。英特尔、苹果、英伟达原全球副总裁,现任天九企服董事长兼CEO戈峻,围绕出发新时代、出发新大陆、出发新一代、出发新民企等四大议题,携手国内外企业家、行业专家、民企接班人及主流媒体,共议新时代民企面临的机遇与挑战。“再出发·戈峻2024谷雨演讲”现场出发新时代 向前奔跑深圳被誉�

  • TRON x HTX DAO 2024 香港之夜:共建香港元宇宙金融自由港

    4月9日,由TRON主办,HTXDAO协办的“TRONxHTXDAO2024香港之夜”主题活动在香港盛大举行。多位参与HTXDAO生态建设的项目方代表、委员会成员、知名KOL等出席并就HTXDAO发展及加密业态进行演讲。HTXDAO、TRON作为行业头部机构,期待为更多Web3参与者和创业者提供交流与合作的平台,持续探索香港在加密领域的创新和突破,为全球加密市场的繁荣与发展注入新动力。

  • 用AI挑战未来!电脑报2024校园嘉年华·广州站圆满成功

    抑制不住地激动,电脑报2024校园嘉年华首站再次落地广州,来到这座有着众多电脑报铁粉的城市,跟高校学子一起讨论如今火爆全球的AI技术应用。从教育教学到工业设计,从智能家居到自动驾驶,从医疗诊断到金融投资,AI正在逐渐渗透到我们工作、生活的方方面面。短短的几个小时,电脑报再次感受到了来自广州粉丝朋友们的热情。

  • AI日报:首个AI程序员Devin造假被抓;​Sora平替?StreamingT2V试玩地址公布;Udio AI还可以创作喜剧、演讲;XAI发布Grok-1.5Vision多模态模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用Sora平替?2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布UdioAI提供多功能音频生成还可以创作喜剧、演讲、电台广播等美图Wink“AI动漫”功能升级可将短剧作品转化为动漫风格StableDesign:适用于室内装修设计的SD方案文字提示就可修改室内设计图比换脸更强大!SwapAnything:替换图片中的任意元素AI延时视频生成工具MagicTime在线体验地址放出自动化写作工具STORM:可生成像维基百科一样的深度长篇内容Meta推出ViewDiff模型:文本生成多视角3D图像📰🤖📢AI新鲜事首个AI程序员造假被抓,Devin再次“震撼”硅谷!扒皮视频文字详解附上马斯克XAI发布Grok-1.5Vision多模态模型,可处理文本和图片信息360智脑7B参数大模型正式开源最长支持约50万字输入Adobe图像生成AI“Firefly”训练集中约有5%为AI图像代码、模型全开源!贾佳亚团队多模态模型Mini-Gemini登上热榜面壁智能开源MiniCPM2.0系列模型OCR等能力显著增强竞争升温!ChatGPT增长疲软3月全球访问量17.7亿次,Claude逐渐崛起InstantID团队推新风格迁移方法InstantStyle一键置身“梵高星空”——————每日midjourneyprompt:小说古风美女图源备注:图片由AI生成,图片授权服务商MidjourneyAbeautifulwomanfromancientChina,dressedinagorgeousredHanfu,withlonghairdrapedoverhershoulders,satinherboudoirwithasmile.Ancientstyle,hanfu,boudoir,gorgeous,palace,screen,carpet,softlight,eleganttemperament,ancientculture,inlinewithorientalaesthetics,richdetails,bestquality,exquisitemakeup,cleareyelinerpen,slendereyebrows,texturedskin,whiteskin,charmingheaddress,--ar3:4--niji6--styleraw一个中国古代美女,穿着华丽的红色汉服,长发披肩,微笑着坐在闺房内。

  • 换电池换屏8折、手机换新特惠!小米2024年米粉节开启

    今天小米服务官方发布公告称,2024米粉节从今天起正式开启,为用户带来换电池换屏8折、手机换新特惠等8项服务权益,分别是:手机电池8折换新:26款机型,更换原厂电池最低79.2元,手机外屏碎裂8折维修:38款机型,手机外屏部件换新最低159.2元,笔记本电池8折换新:14款笔记本,享建议零售价8折更换电池,笔记本深度清洁5折:用户可以前往服务门店花费49.5元享官方深度清洁服务,洗衣机深度清洁5折:59.5元可享受一次上门服务,空调深度清洁5折:立式空调深度清洁享活动价79.5元,挂式空调深度清洁享活动价59.5元,抽油烟机深度清洁5折:用户可84.5元享受一次上门服务,平衡车/滑板车电池激活5折:用户可支付50元享受一次上门电池激活服务。手机换新特惠活动也同步开启,小米14等多款机型均可享受优惠。同时小米还上线了手机优惠换屏”,用户更换屏幕时可选择参与旧屏回收,维修价格更优惠。

今日大家都在搜的词:

热文

  • 3 天
  • 7天