首页 > 业界 > 关键词  > 京东最新资讯  > 正文

跻身全球梯队!京东开源JoyAI-Echo框架:解决长视频生成三大难题

2026-06-04 08:40 · 稿源: 快科技

6月3日消息,京东今日正式发布JoyAI-Echo长音视频生成框架,该框架针对行业内长期存在的长视频生成难题——角色形象不稳定、声音音色不连贯、生成速度缓慢——提供了解决方案。

目前,JoyAI-Echo的代码与权重已全面开源,相关项目页面及GitHub代码仓库也已上线,供开发者与创作者体验及进行二次开发。

京东方面表示,JoyAI-Echo的推出标志着其在长视频生成领域取得了重大突破,跻身全球领先行列。

据悉,JoyAI-Echo内置跨模态音视频记忆库,能够在多镜头生成过程中持续保存并调用角色的外观特征及说话人的音色信息。

实测结果显示,在长达5分钟的视频中,角色的身份、视觉形象及声音音色均能保持高度一致,有效避免了“同一个人演着演着变成另一个人”的问题。

与此同时,京东提出了一种记忆驱动的后训练流程,结合SFT、跨模态RLHF以及Distribution Matching Distillation(DMD)技术,在提升生成质量的同时实现了推理速度的优化。

京东开源JoyAI-Echo框架:解决长视频生成三大难题

其中,仅DMD技术一项就带来了约7.5倍的速度提升,大幅提高了长视频的生成效率。

此外,JoyAI-Echo还加入了“智能导演助理”Director Agent功能。用户只需用自然语言描述需求,系统即可自动拆分剧本、角色、场景及镜头。

如果生成结果中有局部镜头不理想,用户也可直接通过对话提出修改意见,系统仅需重新生成有问题的部分,无需整条视频重新制作。

为满足专业内容生产需求,JoyAI-Echo还配备了实时超分模块,支持两种分辨率提升方案:从736×1280提升至1152×1920,以及从736×1280提升至1472×2560。

通过单步超分处理,JoyAI-Echo能够生成高分辨率视频及精细化音频,即使在流式延迟约束下,也能保持稳定的高清表现。

在评测方面,研究团队基于100个故事、3000个镜头构建了专门的长音视频生成评测集,对JoyAI-Echo进行了多维度测试。

结果显示,JoyAI-Echo在跨镜头一致性、视频质量、文本一致性以及语音内容准确率等核心指标上均取得了领先表现,其中语音内容准确率达到0.8646,领先于行业其他同类模型。

举报

  • 相关推荐
  • sora正式停服,国内版天空AI视频生成模型发布

    Sora宣布停服后,国内“天空AI”视频生成大模型正式发布。该模型由温州专帮信息科技推出,支持文本、图片生成逼真视频,核心亮点是用户无需GPU服务器,用家庭或办公电脑即可完成算力,成本几乎为零。目前发布三个版本:手机版、单机版和多用户商用版,并支持OEM贴牌、私有化部署等技术服务,实现低成本、高效率的视频创作。

  • 卓世科技亮相 2026海南(三亚)人工智能科技大会,具身智能通用大脑赋能自贸港产业升级

    5月19日-25日,2026海南(三亚)人工智能科技大会以“睿见未来”为主题举办。卓世科技作为国家级专精特新“小巨人”企业受邀参展,创始人李伟伟发表主题演讲,展示自研“璇玑玉衡”大模型与具身智能通用大脑技术体系,深度对接海南自贸港AI产业生态。大会聚焦物理AI、智能制造、医疗康养等前沿赛道,搭建政产学研资用一体化平台。卓世科技针对行业痛点,提出分层赋能、即插即用的通用大脑解决方案,涵盖AI数字员工、陪伴交互大脑、非人形协同大脑及人形自主作业大脑等,并公布“数据资产、模型能力、场景方案、适配服务、验证认证”五大货架体系,助力海南打造全球人工智能“自贸高地”。

  • 格创东智亮相深圳国际人工智能展览会:“章鱼智脑”+智能体集群,解锁工业智造新路径

    5月14日,2026全球人工智能终端展暨第七届深圳国际人工智能展以“端启未来·万物新生”为主题开幕,汇聚TCL、荣耀等超400家展商。TCL展示AI创新产品矩阵,格创东智则凭“章鱼大脑”智能决策中枢及智能体集群成为焦点,其以“打造AI自主决策的超级工厂”为核心,通过章鱼大脑、品质管理等四大板块,呈现工业智能决策实践路径。章鱼大脑采用“决策+执行Agent”架构,实现数据闭环,已落地多家半导体工厂,达成分钟级异常处置、良率实时监控等成效。未来,格创东智将持续迭代,推动从AI辅助向自主决策转型,助力中国智造高质量发展。

  • AI日报:阿里上线首个官方大模型NBA Chat; Ideogram4.0开源发布;OpenAI升级ChatGPT记忆系统

    今日AI领域动态:Ideogram 4.0开源发布,93亿参数打造最强文字生成AI,提升海报与品牌营销创作;OpenAI升级ChatGPT记忆系统,算力降至1/5,解决过时与准确性痛点;腾讯文档推出行业首创“人机双写”原生编辑器;xAI发布Grok Imagine Video 1.5,支持图片转视频;豆包回应AI识别野生蘑菇误判,强调仅供参考;知乎Q1扭亏为盈,AI短剧成增长点;腾讯云ADP 4.0新增Claw模式,提升企业Agent构建效率;NBA中国与阿里推出首个官方大模型“NBA Chat”。

  • 男子用AI写歌月入十几万:40秒就能生成一首歌

    近日,浙江杭州一名从业者借助AI音乐创作工具实现可观收益。该创作者只需上传一张图片,耗时40秒便能生成一首完整曲目,工具可驾驭各类曲风,生成作品的人声、唱腔还原度贴近真人演唱,普通听众很难区分演唱者是AI还是真人。 依托低成本批量制作AI歌曲,投放到音乐、短视频平台变现,月收入可达十几万元,AI生成音乐也逐渐在各大内容平台收获流量。 同时他提醒大

  • 卓世科技荣膺「2026 福布斯中国人工智能科技企业 TOP50」

    近日,《福布斯》发布“2026福布斯中国人工智能科技企业TOP50”榜单,卓世科技凭借其行业大模型创新、自主可控的“璀璨玉衡”大模型体系、Tri-Core三核协同具身智能通用大脑,以及在工业制造、企业服务、健康养老、教育等多领域的深度商业化落地能力成功入选。同时,其创始人屠静女士也入选“人工智能影响力人物”。这标志着卓世科技已跻身中国人工智能产业核心阵营,其技术实力与产业价值获得高度认可。

  • AI日报:千问全面开放第三方Agent与Skill;字节开源统一框架 Bernini;OpenAI 推出 Sites 功能

    AI日报今日要点:1. 阿里千问全面开放第三方Agent与Skill,瑞幸、东航等首批接入,升级为"超级Agent"个人助手;2. 字节跳动开源Bernini框架,通过"先理解、再生成"机制解决视频编辑画面失控问题;3. OpenAI推出Sites功能,可将创意秒变互动网站;4. 微软Win11隐藏AI卸载选项,可释放超2.5GB硬盘空间;5. DeepSeek首轮融资估值或达4000亿元,腾讯、宁德时代拟参投;6. OpenAI发布六行业Codex工作流插件;7. 谷歌推出Android虚假来电检测功能;8. 亚马逊Ring门铃人脸识别功能遭集体诉讼。

  • 奥思维重磅发布开源鸿蒙商用车智能座舱AIOS引领产业升级

    5月28日,开源鸿蒙开发者大会2026在广州举行,预发布6.1 LTS版本。作为CAR_SIG副组长单位,奥思维基于开源鸿蒙发布商用智能座舱AIOS,以AI与3D交互创新破解行业痛点,实现安全、效率、体验全面升级。该座舱已适配多芯片平台,具备系统级互联、高安全性和生态开放性,并迭代至第二版本,支持一芯多屏、AI语音交互等功能,未来将持续深耕生态,推动规模化落地。

  • 从技术叙事走向商业化拐点,AI视频公司集体迎来价值重估?

    刚刚,快手发布2026年一季度财报。比起集团整体表现,市场的注意力更聚焦在可灵AI的经营数据。 财报显示,2026年第一季度,可灵AI营业收入超过人民币6.5亿元,同比增长超300%;2026年3月,其年化收入运行率(ARR)已接近5亿美元,较去年3月的1亿美元增长4倍,其商业化进程进一步加速。 几乎就在同一个时间窗口里,另外两件行业标志性事件同步发生。 一边是戛纳电影节上,

  • 日本熊袭击人清晰视频流出:工人被狂追后扑倒在地

    当地时间6月2日上午,日本福岛钢铁厂的监控视频记录下一头亚洲黑熊袭击人类的过程,当天它先后袭击了工厂两名男性员工、附近住宅的一名80多岁女性,以及另一家公司一名60多岁男性。 监控画面显示,这头黑熊在工厂入口穷追一名20多岁的工人,虽然工人已经绕着圈子闪躲,但最终还是不敌,被黑熊扑倒在地,好在有人驾驶一辆汽车驱赶,这才将黑熊给吓退,否则后果怕�

今日大家都在搜的词: