首页 > 业界 > 关键词  > 视频编辑模型最新资讯  > 正文

新视频编辑模型VideoSwap 可精细化替换视频主体

2023-12-08 10:55 · 稿源:站长之家

**划重点:**

🔄 视频主体定制替换: VideoSwap框架通过语义点对应实现源视频主体与目标主体的形状变化替换。

🚗 形状变化挑战: 传统基于扩散的视频编辑在处理形状变化时效果有限,VideoSwap引入语义点对应以应对这一挑战。

🌐 视频编辑革新: 采用语义点对应的VideoSwap框架在自定义视频主体替换方面取得了卓越的效果,为视频编辑领域带来创新。

站长之家(ChinaZ.com)12月8日 消息:最近,视频编辑领域迎来了人工智能的显著进展,其中以Diffusion-based技术为代表。该技术利用预训练的文本到图像/视频扩散模型进行样式更改、背景交换等任务。然而,在视频编辑中,将源视频的运动转移到编辑后的视频,尤其是确保整个过程中的时间一致性是一个具有挑战性的部分。

大多数视频编辑工具侧重于通过确保时间一致性和动作对齐来保持视频的结构。然而,在处理视频中的形状变化时,这一过程变得无效。为了解决这一问题,新加坡国立大学的Show Lab和Meta的GenAI研究人员引入了VideoSwap框架,该框架使用语义点对应而非密集对应,以对齐主体的运动轨迹并改变其形状。

image.png

使用密集对应可以实现更好的时间一致性,但限制了编辑视频中主体形状的变化。尽管使用语义点对应是一种灵活的方法,但在不同的开放世界设置中变化较大,这使得难以训练一个通用的条件模型。

研究人员尝试仅使用有限数量的源视频帧来学习语义点控制,他们发现在源视频帧上优化的点可以对齐主体的运动轨迹并改变主体的形状。

此外,优化后的语义点还可以在语义和低级别变化之间进行转移。这些观察结果为在视频编辑中使用语义点对应提供了依据。

研究人员设计了该框架的方式如下:他们将运动层集成到图像扩散模型中,以确保时间一致性。他们还在源视频中识别了语义点,并利用这些点来传递运动轨迹。该方法仅关注高级语义对齐,从而防止过度学习低级别细节,从而增强语义点对齐。此外,VideoSwap还具有用户点交互,例如删除或拖动点以进行多个语义点对应。

替换效果

image.png

image.png

研究人员使用潜在扩散模型实施了该框架,并采用AnimateDiff中的运动层作为基础模型。他们发现,与先前的视频编辑方法相比,VideoSwap在同时对齐源运动轨迹、保留目标概念身份的同时实现了显著的形状变化。研究人员还通过人工评估验证了他们的结果,结果清楚地显示,VideoSwap在主体身份、动作对齐和时间一致性等指标上优于其他比较方法。

VideoSwap是一个多才多艺的框架,即使涉及复杂形状的视频编辑也能游刃有余。它在过程中限制了人的干预,并使用语义点对应实现更好的视频主体交换。该方法不仅允许在同时改变形状的同时将运动轨迹与源对象对齐,而且在多个指标上优于先前的方法,展示了在定制视频主体交换方面的最新成果。

论文网址:https://arxiv.org/pdf/2312.02087.pdf

项目网址:https://videoswap.github.io/

举报

  • 相关推荐
  • 可灵AI发布全新2.0模型:上线多模态视频编辑功能

    快科技4月16日消息,据报道,可灵AI在北京举行灵感成真”2.0模型发布会,正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍,可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先;可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日,全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单,快手可灵1.6pro(高品质模

  • 视频生成模型Vidu Q1怎么用?Vidu Q1官网是什么?

    国产视频生成大模型Vidu Q1在性能、价格和功能上实现重大突破。该模型由生数科技推出,在VBench评测中超越Sora等国内外顶尖模型,支持1080p高清视频生成,每秒价格低至3毛钱。其首尾帧功能仅需两张图即可实现电影级运镜效果,支持多元风格生成和48kHz高采样率混音功能。Vidu Q1已深度赋能影视、广告、动漫等行业,大幅降低创作门槛。

  • 可灵2.0大师版首发爆火!排队半小时实测,视频编辑能力再升级

    “可灵持续领先!”4月15日下午,快手宣布可灵AI全系模型进入2.0时代。自从上一次可灵1.6更新已过去近3个月,这次基座模型升级,快手高级副总裁、社区科学线负责人盖坤在发布会上自信表示:“可图2.0现在是行业领先的图像模型……可灵2.0,特别在图生视频上持续全球大幅领先!”现场响起了一阵阵欢呼声和掌声。“AI新榜”现场拍摄升级后,可灵2.0视频生成模型(大师版)具

  • 爱聊APP 2025年第 一季度“净网行动”公示 精细化生态内容治理

    在数字经济与社交需求深度融合的背景下,爱聊APP始终坚持以用户安全为核心,通过技术赋能、生态共治、政策合规三大维度,持续推进“净网行动”常态化治理。2025 年第 一季度,平台累计处理违规案例108, 662 例,禁言处罚27, 258 例,封禁账号23, 951 例,永 久封禁账号57, 453 例,全方位构筑社交安全屏障,为用户打造真实、可靠的社交环境。深化实名认证与反诈攻坚爱�

  • 中国人保APP流量运营方法论曝光:精细化策略如何撬动5000万用户增长?‌

    在保险行业加速线上化转型的浪潮中,流量运营能力正成为衡量险企数字化竞争力的核心指标。近日,中国人保APP公布的最新数据显示,其累计用户下载量突破 5000 万,月活用户同比增长35%,引发行业对保险流量运营模式的新一轮探讨。‌流量争夺战中的“人保模式”‌当前,头部险企APP普遍面临用户增长放缓、低频使用等痛点。据易观咨询报告, 2023 年保险类APP平均月活增�

  • 任小姐出海战略咨询|抓住亚马逊Cosmo算法红利:精细化用户洞察与营销策略

    亚马逊2024年9月推出的Cosmo算法将彻底改变跨境电商竞争格局。该算法实现从"千人一面"到"千人千面"的个性化推荐转型,通过全域数据分析深度理解用户行为和需求,为不同用户推荐最匹配产品。核心特征包括:1)从产品理解转向用户理解;2)从静态标签到动态认知;3)覆盖18个主要品类实现精准推荐。研究显示,该算法将带来三大机遇:突破价格战限制、精准定位细分市场、创造多元化竞争空间。典型案例显示,深耕细分市场的产品即使定价较高,只要精准定位目标用户仍能获得成功。专家建议卖家重点布局:1)深度细分市场;2)打造品牌差异化;3)重视站外营销;4)针对细分人群溢价。这标志着跨境电商进入以用户需求为核心的新竞争时代。

  • GMSwap上线在即,Statter生态繁荣提速进行时

    在加密行业整体进入深度调整期、全球市场不确定性持续上升的背景下,Statter依然展现出非凡的战略定力与建设节奏,持续推进生态升级。近日,Statter 官方重磅宣布:生态内去中心化交易所(DEX)——GMSwap 即将重磅上线,并全面接入Statter Network!这一标志性事件不仅意味着 Statter 生态在底层基础设施建设上迈出坚实一步,更预示着整个生态系统即将进入一个全新的加速发展�

  • 马斯克炫酷变身毒液!实测通义Wan2.1首尾帧视频模型,还能“拼接”经典梗图

    在GitHub狂揽1w+星标的通义万相Wan2.1,又双叒上新了!最新打开方式是酱婶儿的:给出开始(首帧)和结束(尾帧)两张图片,Wan2.1便能分分钟生成一段丝滑的5s、720p视频。根据前后视角的不同,还能自动调整镜头角度,缓慢变成高空俯拍,并同时保证人物光影正确:原来这是阿里通义万相Wan2.1最新开源的首尾帧视频模型,基于Wan2.1文生视频14B大模型,为创作者们提供更高效、更灵活的

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 谷歌Gemini整合Veo 2视频生成模型,8秒720P视频轻松搞定

    谷歌宣布又有一款 AI 模型将加入 Gemini,但这次它不仅仅是一个聊天机器人。