6月3日消息,京东今日正式发布JoyAI-Echo长音视频生成框架,该框架针对行业内长期存在的长视频生成难题——角色形象不稳定、声音音色不连贯、生成速度缓慢——提供了解决方案。
目前,JoyAI-Echo的代码与权重已全面开源,相关项目页面及GitHub代码仓库也已上线,供开发者与创作者体验及进行二次开发。
京东方面表示,JoyAI-Echo的推出标志着其在长视频生成领域取得了重大突破,跻身全球领先行列。
据悉,JoyAI-Echo内置跨模态音视频记忆库,能够在多镜头生成过程中持续保存并调用角色的外观特征及说话人的音色信息。
实测结果显示,在长达5分钟的视频中,角色的身份、视觉形象及声音音色均能保持高度一致,有效避免了“同一个人演着演着变成另一个人”的问题。
与此同时,京东提出了一种记忆驱动的后训练流程,结合SFT、跨模态RLHF以及Distribution Matching Distillation(DMD)技术,在提升生成质量的同时实现了推理速度的优化。

其中,仅DMD技术一项就带来了约7.5倍的速度提升,大幅提高了长视频的生成效率。
此外,JoyAI-Echo还加入了“智能导演助理”Director Agent功能。用户只需用自然语言描述需求,系统即可自动拆分剧本、角色、场景及镜头。
如果生成结果中有局部镜头不理想,用户也可直接通过对话提出修改意见,系统仅需重新生成有问题的部分,无需整条视频重新制作。
为满足专业内容生产需求,JoyAI-Echo还配备了实时超分模块,支持两种分辨率提升方案:从736×1280提升至1152×1920,以及从736×1280提升至1472×2560。
通过单步超分处理,JoyAI-Echo能够生成高分辨率视频及精细化音频,即使在流式延迟约束下,也能保持稳定的高清表现。
在评测方面,研究团队基于100个故事、3000个镜头构建了专门的长音视频生成评测集,对JoyAI-Echo进行了多维度测试。
结果显示,JoyAI-Echo在跨镜头一致性、视频质量、文本一致性以及语音内容准确率等核心指标上均取得了领先表现,其中语音内容准确率达到0.8646,领先于行业其他同类模型。
(举报)
