首页 > 业界 > 关键词  > 微软最新资讯  > 正文

微软亚洲研究院推出NUWA-XL超长视频生成模型

2023-04-20 10:53 · 稿源:站长之家

站长之家(ChinaZ.com)4月20日 消息:你相信吗?只要输入16句简单描述,AI就能生成11分钟的动画了。

近日,微软亚洲研究院推出了NUWA-XL超长视频生成模型,采用创新的Diffusion over Diffusion架构,通过「从粗到细」的生成过程,可以并行生成高质量的超长视频,为多模态大模型提供了新的解题思路。

图片

论文地址:https://arxiv.org/abs/2303.12346

NUWA-XL「从粗到细」的生成方法具有三个优势:

  • 分层结构使模型能够直接在长视频上进行训练,从而消除了训练和推理之间的差距。

  • 模型包含多个局部扩散模型,自然支持并行推理,可以显著提高生成长视频时的推理速度。例如在相同的硬件设置下,当生成1024帧时,NUWA-XL 使平均推理时间从7.55分钟减少到26秒,速度提升了94.26%。

  • 由于视频的长度可以相对于深度 m 呈指数级扩展,因此模型可以很容易地扩展出更长的视频。

图片

目前,长视频生成的多数方法是采用「Autoregressive over X」架构,这种方法存在训练-推理差距的问题,导致不真实的、扭曲的镜头变化。

NUWA-XL的推出填补了长视频生成领域的空白,为人工智能在视频生成方面的应用提供了新的可能性。

微软亚洲研究院首席研究员段楠表示,目前人工智能多模态大模型的研发仍停留在文字生成阶段。即使GPT-4已经在理解方面加入了视觉信息,但仅限于图片,输出依旧是文字或代码。因此,当前和未来的研究方向非常明确,就是将语言和视觉的理解和生成融入到一个基础大模型中,以增强图像、视频和音频的生成。他希望未来可以使用一套结构来融合支持语言和视觉的生成算法,使人工智能模型更加通用。

举报

  • 相关推荐
  • AI日报:腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新;阿里夸克AI眼镜开启预售

    本文汇总近期AI领域重要动态:月之暗面再获数亿美元融资,显示资本对国产大模型的信心;Anthropic为Claude推出记忆功能,兼顾个性化与隐私保护;中科大与字节发布MoGA长视频生成模型,实现分钟级高质量生成;腾讯ima2.0升级任务模式,可自主拆解复杂流程;阿里夸克AI眼镜开启预售,融合拍摄与智能功能;微软Copilot新增群聊、记忆与Edge AI模式;Opera推出深度研究代理ODRA提升�

  • 美股4万亿美元市值上市公司已达3家 苹果、微软、英伟达组成三巨头

    10月28日,苹果与微软股价同步上涨,双双突破4万亿美元市值大关,与超4.6万亿美元的英伟达共同构成全球市值最高的“三巨头”格局。微软因与OpenAI资本重组推动股价涨超3%,持有后者价值1350亿美元股权;苹果则凭借新一代iPhone强劲需求实现股价逆袭,年内首度由跌转升。英伟达仍以最高市值稳居全球第一,凸显全球科技产业对算力需求的爆发式增长。

  • 有AI就有无限可能,灰豚AI发布新一代GEO系统

    11月1日,灰豚AI发布新一代GEO系统,突破传统仅支持文本内容优化的局限,全面支持国内短视频平台作品优化,实现近乎零算力成本。该技术被视作行业重大创新,是当前国内GEO源头厂商的重要突破。系统通过AI训练提升企业在生成式搜索中的品牌影响力,助力企业获得竞争优势。未来电商将从平台化转向AI化,灰豚GEO系统支持多种合作模式,让企业以业务增长为导向,抢占AI市场先机。

  • 从识别到修复,联想想帮帮AI服务智能体打造你的AI智能维修管家

    AI时代重塑陪伴形式,联想“想帮帮AI服务智能体”以公益之心推出,通过五大功能(智玩、智验、智检、智修、智换)构建全流程闭环服务。它能随时响应、精准诊断、智能优化系统,一键解决电脑卡顿等问题,让用户省时省心。该服务强调责任与长期守护,结合北京领养日公益理念,传递科技向善、服务有爱的智能温度,重新定义AI陪伴的全部意义。

  • AI日报:HeyGen发布AI视频翻译引擎;科大讯飞推星火 X1.5;QQ浏览器推出AI+小窗

    本期AI日报聚焦多项技术突破:HeyGen推出精准唇形同步的视频翻译引擎;科大讯飞发布星火X1.5大模型,提升多语言处理能力;QQ浏览器新增AI助手浮窗;科大讯飞推出软硬一体方案,实现高噪声环境精准识别;谷歌Gemini 3 Pro预览版支持百万级上下文窗口;Comfy Cloud让Stable Diffusion实现零门槛创作;谷歌Gemini新增深度研究功能,可整合邮件生成智能报告;上海AgiBot机器人10分钟完成复杂制造任务,重塑生产效率。

  • 人类的心声,被AI听见了

    过去一年里,一个看似无意义的Labubu,成为了颇具情绪号召力的符号。 这只表情夸张、眼神狡黠的小兽,从逼仄的盲盒一路爬上潮流顶峰。它既不代表功能,也不传达身份,却让无数年轻人愿意为之排队、抽签。 而这,离不开更大的消费变迁。事后诸葛来看,Labubu的走红并非偶然,而是精准踩中了一个趋势——在这个时代,人们似乎越来越愿意为“情绪价值”付费。 与此�

  • AI漫剧,比短剧更短剧?

    “是个人就能起飞的风口”,又来了。 在短剧行业摸爬两年后,飞鸟再次感受到了熟悉的躁动。朋友圈、群聊、行业会都在谈论同一个词——“漫剧”。有人劝他趁早上车,理由几乎与当年如出一辙:“就像当时的短剧,是个人就能起飞。” 所谓漫剧,并没有统一的定义。它们形式多样:有的是用游戏编辑器生成的3D动画,有的是将平面漫画动态化,还有的直接以“熊猫头”等

  • GEO时代必备:品牌AI搜索监控实操指南,用AIBase抢占AI可见性高地

    随着生成式AI成为主流信息入口,GEO(生成引擎优化)成为企业品牌曝光的关键。其核心是让品牌信息成为AI生成答案的首选引用源,而品牌AI搜索监控正是落地GEO策略的关键抓手。AIBase平台提供品牌监控服务,帮助企业精准追踪AI搜索可见性、解析GEO指数,实现数据驱动的优化。通过多平台覆盖、核心指标追踪和竞品对标分析,让品牌在AI生态中精准占位,提升权威性与可见性�

  • AI搜索引擎优化选择哪个平台好?AI品牌排名监控服务推荐

    ​在AI搜索逐渐普及的今天,品牌仅满足于在传统搜索引擎中有个好排名已经不够了。一个新的概念——GEO,正变得愈发重要,它决定了你的品牌是否会被AI助手们主动推荐给用户。 下面我将为你科普什么是GEO,并详细介绍一款能帮你监控品牌在AI世界表现的工具——AIBase的AI搜索引擎优化品牌监控服务。 🔍 理解GEO:AI搜索时代的新战场 GEO,全称为Generative Engine Optimization,中�

  • AI品牌排名监控服务有哪些?AI搜索引擎优化平台推荐

    ​在人工智能浪潮下,我们获取信息的方式正经历一场革命。传统的“输入关键词-浏览搜索结果列表”的模式,正在被“与AI对话-直接获得整合答案”的模式所补充甚至取代。这一转变催生了一个全新的概念——GEO。 GEO,全称为生成式引擎优化。它与我们熟知的SEO目标相似,都是为了提升品牌和内容的可见度,但其核心逻辑和优化对象截然不同。 SEO的核心是优化网站在传统

今日大家都在搜的词: