阿里出品!DreaMoving:图片+文字提示就能生成高质量舞蹈视频

2023-12-12 14:20 · 稿源：站长之家

**划重点:**
1. 🌐 **框架介绍:** DreaMoving是一种基于扩散模型的可控视频生成框架，基于图文就能制作高质量定制的人类跳舞视频视频。
2. 🔄 **架构解析:** 文中提出了Video ControlNet和Content Guider两大关键组件，分别负责运动控制和身份保留，可适用于各种风格化的扩散模型。
3. 🎬 **成果展示:** DreaMoving通过姿势序列和简单的内容描述，如文本和参考图像，生成高质量、高保真度的定制视频。

站长之家（ChinaZ.com）12月12日消息:DreaMoving由阿里巴巴集团的一组研究人员倾力打造，一种基于扩散模型的可控视频生成框架，。该框架的核心目标基于图文就能生成高质量、定制化的人类舞蹈视频。

DreaMoving以其出色的扩散模型为基础，能够根据人物的身份和姿势序列生成目标身份在任何地方跳舞的视频。

DreaMoving 可以生成高质量和高保真度的视频，给定指导序列和简单的内容描述，例如文本和参考图像作为输入。具体来说，DreaMoving 通过人脸参考图像、通过姿势序列进行精确运动操作以及由指定文本提示提示的综合视频外观控制来展示身份控制的熟练程度。

比如你“投喂”一张人像，以及一段prompt就能生成对应的视频，而且改变prompt，人物背景和身上的衣服也会跟着变化。

为实现这一目标，该技术引入了Video ControlNet和Content Guider两个关键组件。

Video ControlNet:这是一个图像ControlNet，通过在每个U-Net块后注入运动块，处理控制序列（姿势或深度）以产生额外的时间残差。这有效实现了对运动的控制。

Content Guider:该组件负责将输入文本提示和外观表达，如人脸（衣物是可选的），转换为内容嵌入，实现跨注意力的传递。

值得一提的是，目前DreaMoving项目并没有开源代码。点击前往DreaMoving官网体验入口

项目网址:https://dreamoving.github.io/dreamoving/

论文网址:https://arxiv.org/abs/2312.05107

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
DreaMoving可控制AI视频生成框架使用地址阿里dreamoving官方入口

DreaMoving是什么？DreaMoving是阿里一个基于扩散模型的可控制视频生成框架，用于生成高质量的定制人类舞蹈视频。DreaMoving能够适应大多数风格化扩散模型以生成多样化的结果。

DreaMoving
旷视发布HiDiffusion，SD生成速度更快，图片质量更高

最近，旷视发布的HiDiffusion技术，近日引起业界广泛关注。这一新技术只需一行代码，便能显著提升SD（扩散模型）生成图像的分辨率和生成速度，允许图像生成的分辨率高达4096×4096，同时将图像生成速度提高1.5至6倍。值得一提的是，HiDiffusion不仅支持所有SD模型，也兼容SD模型的下游模型，如Playground。

HiDiffusion AI头条
Diffusion-RWKV官网体验入口 AI生成高质量图像工具使用地址

Diffusion-RWKV是一种基于RWKV架构的扩散模型，旨在提高扩散模型的可扩展性。它针对图像生成任务进行了相应的优化和改进，可以生成高质量的图像。欲了解更多详细信息并开始使用Diffusion-RWKV，请访问Diffusion-RWKV官方网站。

Diffusion-RWKV
Garment3DGen：用衣服图片就能生成逼纹理效果的3D模型

研究人员提出了一种名为Garment3DGen的方法，旨在实现3D服装的风格化和纹理生成。该方法通过结合先进的计算机视觉技术和人工智能算法，为用户提供了一个简单高效的工具，用于实现服装设计的个性化风格化。随着这一技术的不断完善和推广，我们有理由相信，未来的服装设计将更加多样化和个性化。

Garment3DGen AI头条
聚焦绿色低碳高质量发展，中成空间这样答题

在数字化转型与绿色发展的时代背景下，全球经济深入发展，产业结构持续升级，新质生产力的培育和发展已成为推动经济社会高质量发展的核心动力。作为行业科技创新的领跑者，中成空间打造“气膜”特色品牌，气膜产品凭借其领先的科研技术、创新实践和环保理念，为新质生产力的发展注入强大动力，为港口码头、矿产原采、文体科技、商旅文化等领域的转型升级和高质量发展增添创新动能。中成空间将持续发挥其在新质生产力发展中的重要作用，助力各行业迈向更高层次的转型升级和高质量发展，同时也为构建更绿色、智能、高效的产业生态贡献企业力量。
midjourney prompt：如何用AI工具制作古诗文短视频？4个高质量midjourney古诗AI绘画提示词分享

图源备注：图片由AI生成，图片授权服务商MidjourneybyVictoNgaiAsereneflatillustrationinthestyleofWuGuanzhongdepicts，Chineselandscapepaintingstyle，highmountainsandflowingwater，shroudedincloudsandmist，waterfallflowingstraightdown，calmlakesurface，aflatboat，twopeoplesittingquietly，blueandbluetones，peacefulandmagnificent--ar3:4--niji6由VictoNgai吴冠中风格的一幅宁静的平面插图，中国山水画风格，高山流水，云雾笼罩，瀑布直下，湖面�

midjourney
天九共享助推托育服务高质量发展为家庭提供更好的服务

育儿难题和养老服务需求日益凸显。越来越多的年轻人在结婚生娃后或多或少都会遇到育儿难题，一是因为没有经验，二是很多双职工家庭没人带娃，此外还存在年轻人与长辈教育观念有一定矛盾分歧等问题，这使得高质量的托育服务供不应求。天九共享集团作为享誉中外的创新企业加速平台，积极借助平台资源和能力，持续助力托育养老行业创新和加速增长，推动托育养老服务优质发展，为儿童和家庭提供更好的服务，同时也为行业发展注入新的活力。

育儿难题养老服务托育服务
Parler-TTS：一个高质量文本到语音（TTS）模型

一个名为Parler-TTS的全新开源项目引起了业界的广泛关注。Parler-TTS是一个高质量的文本到语音模型，它能够生成听起来非常自然的语音，为用户提供了前所未有的语音合成体验。项目团队还提供了交互式的演示和详细的训练指南，帮助用户快速上手并根据自己的需求对模型进行定制。

语音模型 Parler-TTS AI头条
科技加码，长生人寿向高质量发展之路挺进！

近些年，长生人寿聚焦数年所积累的线下优势持续发力，将保护消费者权益作为一切工作的出发点、立足点和根本点，把“以用户为中心”的服务理念转化成改进管理、优化服务、诚信展业的实际行动，形成线上线下一体、前后端完美联动、实时智能的服务形式，助推公司快速发展，促推保险惠及更广泛的人群。全面互联，搭建数字化平台长生人寿将物联网技术应用到线下服�

长生人寿消费者权益服务理念
联纲光电加大研发技术投入打造高质量产品服务

近年来，我国的制造业转型势头强劲，高技术含量、高附加值的高新技术制造企业保持较快增长，不断助推我国制造业加速升级。联纲光电科技股份有限公司深耕光电信号传输领域16年，现旗下拥有6家子公司以及东莞总部生产基地、江西赣州生产基地、广西南宁生产基地、越南北宁生产基地，供应链资源遍布全球，现已荣获国家高新技术企业、国家级专精特新小巨人企业等称�

制造业升级高新技术制造光电传输

今日大家都在搜的词：

热文

3 天
7天

阿里出品!DreaMoving:图片+文字提示就能生成高质量舞蹈视频

今日大家都在搜的词：

热文

站长商机