DragNUWA :一个可以实现精细控制的视频生成模型

2023-08-18 15:52 · 稿源：站长之家

站长之家（ChinaZ.com）8月18日消息:DragNUWA 是一种基于扩散算法的视频生成模型，DragNUWA 模型旨在解决视频生成中的精细控制问题。该模型通过引入文本、图像和轨迹信息，并从语义、空间和时间角度提供精细控制。

论文地址:https://arxiv.org/pdf/2308.08089.pdf

模型中的轨迹建模包括轨迹采样器（TS）、多尺度融合(MF)和自适应训练(AT)策略。实验证明 DragNUWA 模型在视频生成的精细控制方面表现出色。

核心功能:

DragNUWA 在语义、空间和时间维度上同时引入文本、图像和轨迹信息，提供了精细控制视频生成的能力。
它采用轨迹采样器、多尺度融合和自适应训练策略，实现了开放域轨迹控制和生成连贯的视频。该模型在实验中展现出优越的细粒度控制性能。

（举报）

相关推荐
大家在看

关键词：

视频生成

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Open-Sora-Plan v1.0.0模型发布显著提升视频生成质量和文本控制能力

Open-Sora-Planv1.0.0模型正式发布，这一最新版本的AI模型在视频生成质量和文本控制能力方面取得了显著的提升。该模型能够生成10秒、24FPS的1024×1024高清视频，同时还支持生成高分辨率图像，为用户提供更加丰富和精细的视觉体验。在国内市场上，用户可以借助华为昇腾910b芯片的强大计算能力，更加高效地运行Open-Sora-Planv1.0.0模型，进一步提升视频生成的速度和质量。

Sora AI头条
Ctrl-Adapter：专为视频生成设计的Controlnet 提供有效精细控制

Ctrl-Adapter是一个专门为视频生成设计的Controlnet，旨在为各种图像和视频扩散模型提供丰富的控制功能，并优化视频的时间对齐。这个工具的开发是为了增强现有的图像和视频生成技术，使其能够更好地满足用户的特定需求。随着技术的不断进步，我们可以期待Ctrl-Adapter在未来将有更多的应用场景和进一步的发展。

Ctrl-Adapter AI头条
DreaMoving可控制AI视频生成框架使用地址阿里dreamoving官方入口

DreaMoving是什么？DreaMoving是阿里一个基于扩散模型的可控制视频生成框架，用于生成高质量的定制人类舞蹈视频。DreaMoving能够适应大多数风格化扩散模型以生成多样化的结果。

DreaMoving
Krea AI将推视频生成功能界面更加简洁美观了

KreaAI即将推出的视频生成功能，无疑将为设计领域带来新的革命。这个功能的推出，将使得用户能够轻松地生成高质量的视频内容，无论是用于广告、电影、游戏概念设计是用于社交媒体分享，都将变得非常方便。KreaAI推出实时增强功能，可以让用户在绘制图像时，实时看到图像的细节和分辨率的提升，这对于需要精细作画的设计工作来说，无疑是一大福音。

Krea AI头条
MuseV：基于SD的AI视频生成工具角色一致且视频时长不限

一款名为MuseV的虚拟人视频完整解决方案应运生，为虚拟人视频领域带来了全新的突破。MuseV基于SD，支持文生视频、图生视频、视频生视频等多种生成方式，能够保持角色一致性，且不受视频长度限制。无论是个人用户还是企业用户，都可以通过MuseV轻松地制作出高质量的虚拟人视频，满足各种场景的需求。

MuseV AI视频 AI头条
AI视频生成工具ID-Animator：可保持角色一致生成视频动画

生成具有指定身份的高保真人类视频引起了广泛关注。现有技术在训练效率和身份保持之间往往难以取得平衡，要么需要繁琐的逐案微调，要么在视频生成过程中通常会丢失身份细节。当提供多个控制图像时，生成的视频序列紧密遵循多个图像提供的序列。

ID-Animator AI头条
DreamWalk：实现对图像生成风格和内容的精细控制

在图像生成领域，精确控制图像的风格和特征一直是一个具有挑战性的问题。DreamWalk技术的出现为这一难题提供了解决方案，使得用户可以更加自由地决定图像中哪部分应该更加强烈地体现某种风格哪部分则保持原样或采用另一种风格。这一功能为用户提供了一种简单有效的方式，将他们的照片或收藏的图像转化为独特的艺术风格，从丰富了数字艺术的创作方式。

DreamWalk AI头条
新机器学习框架DRAGIN:用于大语言模型中的动态检索增强，胜过传统方法

研究人员从清华大学和北京理工大学开发了DRAGIN，这是一种针对大型语言模型设计的动态检索增强生成框架。该框架旨在通过在文本生成过程中实时确定何时以及如何检索外部信息，从提高语言模型的性能。未来的工作旨在克服与自注意力可访问性相关的限制，并对查询构建技术的影响进行评估。

DRAGIN AI头条
AI延时视频生成工具MagicTime在线体验地址放出

MagicTime是一款创新的在线工具，它能够根据用户提供的文本描述生成展示真实世界物理变化过程的时间延迟视频。这种技术的应用范围非常广泛，可以用于记录和展示各种自然和人为引起的变化过程。对于教育和科普来说，MagicTime提供了一种生动、直观的教学工具，帮助学生和公众更好地理解复杂的科学概念。

MagicTime AI头条
MuseV官网体验入口虚拟人AI视频生成软件使用地址

MuseV是一个基于扩散模型的虚拟人视频生成框架，支持无限长度视频生成，采用了新颖的视觉条件并行去噪方案。它提供了预训练的虚拟人视频生成模型，支持Image2Video、Text2Image2Video、Video2Video等功能，兼容StableDiffusion生态系统，包括基础模型、LoRA、ControlNet等。要了解更多有关MuseV的信息，欢迎访问官方网站。

MuseV

ColdCraft:帮助您打造个性化、有效的冷邮件，节省时间并提高回复率。

ColdCraft是一个AI平台，可以帮助您将简单的要点和LinkedIn个人资料转化为有效的冷邮件。它可以节省时间并提高回复率。该插件可以直接在Gmail中将要点转化为完整的冷邮件，并可以从LinkedIn个人资料直接撰写和发送电子邮件。

冷邮件个性化有效

nexai:Nexai是一个AI聊天机器人，可以帮助您进行搜索、提供信息和回答问题。

Nexai是一个基于人工智能的聊天机器人，它可以通过自然语言处理技术理解用户的问题并提供相关信息。它具有快速、准确的搜索能力，可以回答各种问题，并提供实用的建议和指导。Nexai还可以进行智能对话，与用户进行交流和互动。

AI 聊天机器人搜索

Inboxly AI:Inboxly是一个AI邮箱，带有内置的AI助手，可从所有平台整理、优先处理和回复邮件，让您不再错过有价值的新机会。

Inboxly是一个AI邮箱，可以帮助用户整理、优先处理和回复来自各个平台的邮件。它的主要优点是提高工作效率、节省时间和保护隐私。Inboxly适用于个人和小型企业，提供AI助手、自动回复、智能过滤等功能。它是一个具有高影响力的低成本解决方案。

AI邮箱工作效率时间管理

Truva:AI是一款AI助手，为您的应用提供新的工作方式。超越点击，在聊天中完成任务等更多操作。让您的应用从您身上学习，并随着时间的推移变得更好。

TruvaAI是一款AI助手，为软件平台提供智能导航和自动化操作功能，帮助用户更轻松地使用应用程序。通过TruvaAI，用户可以快速定位到正确的工具、功能和信息，并且还可以代表用户执行操作。TruvaAI不仅提高了用户的NPS，还为每个用户提供了个人账户经理的体验，实时可用。TruvaAI还能够根据用户的反馈和行为学习，不断改进自身。

智能导航自动化操作 AI助手

AIMidUs Community:AI Middle of Us Community是一个AI社区，提供最新的AI资金新闻、创新的AI工具和深入的AI见解。

AI Middle of Us Community是一个AI社区，旨在为用户提供最新的AI资金新闻、创新的AI工具和深入的AI见解。它是一个聚集AI爱好者和专业人士的平台，旨在推动人工智能领域的创新和发展。该社区的主要优点包括提供最新的资金新闻、分享创新的AI工具、深入的AI见解和提供有价值的AI免费资源。

AI 人工智能社区

Brainrot Translator:将文本转换成Skibidi。

Brainrot Translator是一个将文本转换成Skibidi的网站。它的主要优点是可以将普通文本转换成具有特殊效果的Skibidi文本，增加了文本的趣味性和创意性。

文本转换创意趣味

BeagleGPT:是一款在Microsoft Teams上可用的最佳生产力工具。

BeagleGPT是一款建立整个工作人员数据习惯的工具，受到F500公司的信任。它能回答各种问题，提供洞察力，并提供个性化的数据建议，帮助用户做出更明智的决策。BeagleGPT具有预测和建议模块，能够回答为什么和怎么样的问题，并为用户制定行动计划。

数据分析人工智能商业智能

GeniusPokerPlanning:使用我们直观的扑克计划应用程序轻松计划和估算项目。

Genius Poker Planning是一个多功能工具，旨在简化和增强敏捷扑克规划会议。它提供了一个用户友好的界面，为团队评估和优先处理任务提供了高效的方法。这个工具赋予敏捷团队协作评估用户故事复杂性的能力，确保更准确和高效的冲刺计划。无论您是一个软件开发团队还是其他敏捷专注的团队，Genius Poker Planning简化了评估过程，使其成为您敏捷工作流程中不可或缺的资产。

敏捷规划项目估算敏捷管理

Uncensored Chat by ModelsLab:第一个ChatGPT的开源替代品。

Uncensored Chat是第一个开源的ChatGPT替代品，它采用了人工智能技术，具有自动生成对话的能力。它的主要优点是开源、可定制、免费使用，并且能够为用户提供智能对话服务。

人工智能 ChatGPT 智能对话

Userscom:一个简单、智能、基于AI的票务软件

Userscom是一个简单、智能、基于AI的票务软件，能够帮助用户更快地建立有意义的客户关系，提高工作效率。它具有清晰的用户界面和智能设计，通过AI生成待办事项、整理工单，并提供内置的跟进工作流程，帮助用户更好地组织工作。此外，Userscom还能自动生成回复，节省用户的时间，提供个性化的客户见解，并支持多种与网站集成的方式。

票务客户关系管理 AI

Quran Stories:通过故事了解古兰经并学习古兰经中的新词汇！

Quran Stories是一个通过故事了解古兰经的学习平台。它利用人工智能生成图像来辅助记忆，通过故事来帮助学习者理解古兰经中的词汇。通过分解复杂的故事为可管理的课程，学习者可以按照自己的节奏进行学习。该平台提供了许多古兰经故事，以及听故事的朗诵，使学习过程更加身临其境。通过提供有趣的学习活动，如测验、单词游戏和重复技巧，使学习过程更有趣并加强记忆。

古兰经故事词汇

Press Ranger:是一款由人工智能驱动的工具包，使新闻工作人员的联系和新闻发布变得快速而简单。

Press Ranger是一款使用人工智能的公关工具，可以轻松构建媒体联系人列表并与记者进行联系。它拥有超过50万名全球记者的网络，您可以与他们进行网络联系，或将我们的公关活动外包给我们的专家团队。

媒体联系公关新闻发布

VetRec:利用人工智能驱动的自动记录宠物临床笔记，让兽医助手和技术员受益。

VetRec是一个使用人工智能驱动的兽医临床笔记自动化解决方案，帮助兽医助手和技术员节省时间。它可以在每次访问后的几秒钟内生成SOAP笔记，让你可以更专注于最重要的宠物和兽医。VetRec可以记录、处理和生成会话笔记，并分析会话以提取关键细节。它还可以根据你的需求定制模板，并保留详细的笔记和咨询记录，方便日后查阅。

兽医临床笔记人工智能

Dreamseer:是一款将数据科学与艺术相结合的平台，通过解读梦境来理解自我和世界。

Dreamseer是一款APP，通过数据科学解读梦境，帮助用户深入了解自己，并实现个人成长和进化。它的主要优点包括提供深入洞察力、推动社区协作、扩展梦境世界等。Dreamseer定位于个人成长和社区合作的领域。

梦境数据科学个人成长

Herodot AI:Herodot是一款AI旅游助手，为你提供关于地图上任何对象的精彩故事。

Herodot是一款AI旅游助手，通过讲述有趣的故事来为用户提供关于地图上任何对象的信息。它使用人工智能技术，可以为用户提供丰富的历史和文化知识，并帮助规划旅行行程。Herodot的主要优点是提供个性化的旅行指南和故事，让用户更好地了解目的地的背景和文化。

旅游历史文化

MarketerGrad by Pangea:匹配高质量的营销人员和设计师，帮助您快速增长。由Pangea AI提供支持。

MarketerGrad是一个提供高质量的营销人员和设计师的平台，通过匹配具有2到10年经验的人才来帮助您快速增长。该平台由Pangea AI提供支持，具有灵活的合同结构，使您能够更快地招聘到合适的人才。

营销设计招聘

Edubrain AI Homework Helper:Edubrain是一个AI作业助手，可以为学生提供个性化解决方案，帮助他们更好地完成作业并节省时间。

Edubrain是一个AI作业助手，通过提供可靠的解决方案来帮助学生解决作业问题。它可以为任何学科和学术水平提供个性化的解答。Edubrain具有无限制的使用次数，完全免费，可以在10秒内生成可靠的答案。

作业助手学习工具教育技术

Learn, Build & Ship SaaS with ShipGPT:构建和交付AI的Next.js模板和教程

SHIPGPT是一个前后端完整的AI模板，提供了各种AI用例的脚手架，使您能够构建自己的AI应用程序或将AI集成到现有技术中，无需雇佣全栈开发人员和AI开发包装器。

AI SaaS 模板

https:创建你的 ComfyUI 工作流程应用，并与他人分享

ComfyFlow 是一个基于 ComfyUI 的工作流程应用创建平台，能够快速创建工作流程应用并与他人分享。它使用稳定扩散（Stable Diffusion）和 ComfyUI 技术构建，具有简单易用、完全托管、免费使用等优点。

ComfyFlow ComfyUI 工作流程应用

AI Experts Top:AI Experts是一家专注于数字营销的AI顾问机构，致力于将人工智能技术应用于业务中，帮助企业提高效率和推动增长。

AI Experts是一家专注于数字营销的AI顾问机构，通过AI驱动的工具，帮助企业高效地生产高质量的内容，并通过数据分析提供有价值的见解，引导业务策略。AI Experts的主要优点包括节省时间和资源、提高内容质量、提供数据驱动的决策支持等。产品背景信息：AI Experts是由真人运营的AI机构，致力于帮助企业将人工智能技术应用于业务中。

DragNUWA :一个可以实现精细控制的视频生成模型

今日大家都在搜的词：

热文

站长商机