首页 > 业界 > 关键词  > 视频生成最新资讯  > 正文

DragNUWA :一个可以实现精细控制的视频生成模型

2023-08-18 15:52 · 稿源:站长之家

站长之家(ChinaZ.com)8月18日 消息:DragNUWA 是一种基于扩散算法的视频生成模型,DragNUWA 模型旨在解决视频生成中的精细控制问题。该模型通过引入文本、图像和轨迹信息,并从语义、空间和时间角度提供精细控制。

image.png

论文地址:https://arxiv.org/pdf/2308.08089.pdf

模型中的轨迹建模包括轨迹采样器(TS)、多尺度融合(MF)和自适应训练(AT)策略。实验证明 DragNUWA 模型在视频生成的精细控制方面表现出色。

核心功能:

  • DragNUWA 在语义、空间和时间维度上同时引入文本、图像和轨迹信息,提供了精细控制视频生成的能力。

  • 它采用轨迹采样器、多尺度融合和自适应训练策略,实现了开放域轨迹控制和生成连贯的视频。该模型在实验中展现出优越的细粒度控制性能。

举报

  • 相关推荐
  • NVIDIA RTX 加速 PC 端 4K AI 视频生成,LTX-2 与 ComfyUI全面升级

    2025年是PC端AI发展的突破之年,小语言模型(SLM)准确率相比2024年提升近2倍,显著缩小了与云端大语言模型(LLM)的差距。NVIDIA在CES上宣布了一系列针对RTX设备的AI升级,以解锁PC上的生成式AI性能。通过优化ComfyUI、开源LTX-2视频生成模型、加速Ollama和llama.cpp等工具,实现了视频/图像生成性能最高提升3倍、显存占用最多降低60%,以及SLM推理性能最高提升35%。这些改进让用户能在本地RTX AI PC上无缝运行先进的工作流,同时享受隐私、安全和低延迟优势。全新的视频生成工作流和由Nexa.ai推出的Hyperlink本地智能搜索工具,将进一步推动生成式AI在2026年全面走向大众创作者、游戏玩家和生产力用户。

  • 实时生成开放世界:新AI模型贴脸开大,游戏研发慌不慌?

    这两天,又有一款全新的AI模型出现了。 虽说如今AI改变各行各业的事情早就屡见不鲜,在游戏业,很多岗位也或多或少已经用上了AI技术,但最近发布的这款AI模型,它真不一样。 这款AI模型名叫PixVerse R1,按官方说法,PixVerse R1是全球首个真正意义上的「实时生成世界模型(Real-time World Model)」。

  • 10个年度剧综赞助案例背后,2026长视频商业化该怎么玩?

    如果以长视频商业化的发展轴线来看,2025年算得上某种意义的回落期。 剧集方面,尽管不少流量主演剧集屡屡被各方号称刷新平台招商纪录,40+、50+合作品牌数整齐罗列,化作开播前和播后总结的耀眼成绩单,但是,一方面开播剧集的单集赞助数量明显在减少、满档登场的情况近乎消失,另一方面,曾经被市场认为进入商业化成熟期标志性事件的剧集冠名、综艺式赞助体系�

  • 短视频刷多了会脑雾:记不住事

    你是否遇到过这种情况,正准备说话,突然忘了刚才想要说什么?明明是一个比较熟悉的人,却怎么也想不起对方的名字?这就好比人的大脑被蒙上了一层雾”,不够清醒、敏锐,被称之为脑雾”。 医学专家指出,脑雾”并非医学诊断,而是患者对自身注意力涣散、精神难以集中、伴随疲惫感的生动客观描述,就像大脑中笼罩着一团雾气,清晰的思维通路被堵塞。 这种状态�

  • 带80岁爷爷搞抽象,“隔辈整活”成短视频新赛道?

    ​穿着夸张战袍的八旬姥爷变身“大力水手”,喊着“风鹰铠甲”合体成铠甲勇士,戴着假发cos拳皇八神庵……临近春节,社交平台上出现大批“隔代整活”视频。 年轻人返乡后,拉着家中老人拍摄各种抽象、搞怪内容,播放量动辄百万,甚至火到海外。

  • 2025 长视频:「内容为王」不变,「体验为王」上位

    2025年的长视频行业,似乎正在发生一种微妙但直观的变化。 过去两三年里,“爆款率”几乎成为了衡量平台成败的唯一指标,其核心逻辑仍是传统意义上的“内容为王”。 然而,爆款供给的天然不确定性让这一逻辑遭遇瓶颈:当S+级大剧播完,如何填补“空窗期”以抵御用户流失?如何引导用户从“追IP”转向“追平台”,构建对品牌本身的深度粘性? 这成为了所有长视频平台

  • 关于长视频忠粉养成记,优酷SVIP亮出一套「多很多」秘籍

    12月底,一波剧粉涌进了上海豫园。 有人兴致勃勃与所追剧集的剧集场景、角色立牌合照;有人一袭古风造型,主打一个沉浸式游园;有人在社交平台再次安利一下自己的心头好;也有人遗憾未能到场,只好在评论区询问是否有人能帮忙购买周边…… 当一批批如《藏海传》《凡人修仙传》《暗河传》等年度爆款剧集近距离走进用户,优酷SVIP超酷会员日(以下简称超酷会员日)举�

  • 大哥捡到手机录视频催失主打电话:你咋没长心呢?

    近期,一桩桩拾主“比失主还急”的手机归还事件在社交平台上引发热议,其中东北大哥们的幽默又暖心的举动更是成为了焦点。 ​在吉林长春的冰雪新天地,几名东北大哥在严寒中捡到游客丢失的手机后,没有选择默默等待,而是顶着零下低温录制视频催促失主:“你咋没长心?手机丢了快打电话!冻死了等你呀!”这段充满方言韵味又不失关切与幽默的视频迅速走红, 被网友

  • 直播+Vlog+视频一机搞定,2026年微单排行榜揭晓,这5款神器值得入手

    随着视频创作成为主流,一台得心应手的相机至关重要。在6000元价位段,佳能R50V凭借其轻巧机身、智能对焦系统及专业视频功能,成为许多入门级创作者的首选。它兼顾画质与便携性,更针对视频拍摄、Vlog记录和直播推流三大场景做了深度优化,堪称该价位的“全能型选手”。文章还推荐了索尼ZV-E10、松下GH6、富士X-S20和尼康Z30等机型,并总结指出,若寻求一台兼顾日常拍摄、Vlog创作和直播的相机,佳能R50V是非常值得考虑的选择。

  • 即构推出AI音视频能力矩阵 助力应用突围增长

    如今,移动应用市场竞争进入了存量博弈新阶段,应用内的新玩法复制成本低,单靠独创模式难以吸引用户留存。Sensor Tower数据显示,全球应用商店双寡头垄断格局稳固,头部应用占据超60%用户时长,中小应用突围愈发艰难。行业增长逻辑已转向内容质量与优质体验,音视频质量低下可能导致用户留存与转化显著下滑。尤其是在直播语聊、网课、电商、音视频创作工具等高频�

今日大家都在搜的词: