11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
微软最近发布了DragNUWA1.5版本,这个新版本的功能让用户在通过图像生成视频之前,能够在图像上画出对应方向的箭头标记。如果你标记的不是具体的物体,镜头就会按照你标记的方向运动。设置完成后,用户可以使用pythonDragNUWA_demo.py命令启动Gradio演示,从能够拖动图像并实时观察其动画效果。
微软提出文本图像轨迹条件视频生成模型DragNUWA,支持手绘轨迹驱动图像动态化,实现复杂运动及场景控制。微软开发的视频生成模型DragNUWA让清明上河图动起来了!只要用拖动的方式给出运动轨迹,DragNUWA就能让图像中的物体对象按照该轨迹移动位置并生成连贯的视频。他被评为中国计算机协会杰出会员、CCF-NLPCC青年科学家、DeepTech中国智能计算科技创新人物。
随着ChatGPT、GPT-4、LLaMa等模型的问世,人们越来越关注生成式模型的发展。相比于日渐成熟的文本生成和图像生成,视频、语音等模态的AI生成还面临着较大的挑战。下图6通过展示文本、轨迹和图像的不同组合说明了这些控制条件的必要性。
DragNUWA是一种基于扩散算法的视频生成模型,DragNUWA模型旨在解决视频生成中的精细控制问题。该模型通过引入文本、图像和轨迹信息,并从语义、空间和时间角度提供精细控制。该模型在实验中展现出优越的细粒度控制性能。