首页 > 业界 > 关键词  > AI视频最新资讯  > 正文

南洋理工发布提高AI视频生成内容一致性方法FreeInit

2023-12-14 09:43 · 稿源:站长之家

要点:

  • FreeInit方法提升视频扩散模型生成的时空一致性。

  • 通过发现噪声初始化在视频扩散模型中存在的隐含训练-推理差距,提出了FreeInit,无需额外训练,不引入可学习参数。

  • FreeInit通过迭代优化推理初始噪声的时空低频组件,弥补训练和推理之间的初始化差距,显著提高生成结果的时空一致性。

站长之家(ChinaZ.com)12月14日 消息:南洋理工大学发布了一项名为FreeInit的方法,该方法可以大幅提高人工智能视频生成的内容一致性。演示显示这一方法非常流畅,并且可以与现有的SD生态结合。此外,他们还发表了与Animatediff结合的方法,只需等待一些专业人士制作插件,就可以使用这一方法。视频中展示了使用了FreeInit和未使用FreeInit的Animaetdiff的对比。

image.png

项目地址:https://tianxingwu.github.io/pages/FreeInit/

根据他们的介绍,他们深入研究了视频扩散模型的噪声初始化,并发现了一个隐含的训练-推断差距,导致了推断质量的下降。他们的关键发现包括推断时初始潜变量的信噪比(SNR)的时空频率分布与训练时本质上不同,以及去噪过程受到初始噪声的低频分量的显著影响。

在受到这些观察的启发下,他们提出了一种简洁而有效的推断采样策略FreeInit,该策略能够显著改善扩散模型生成的视频的时间一致性。通过在推断过程中迭代地优化初始潜变量的时空低频分量,FreeInit能够弥补训练和推断之间的初始化差距,从而有效改善生成结果的主体外观和时间一致性。

FreeInit以迭代方式改进推断初始噪声,通过DDIM采样、DDPM前向和噪声重新初始化,初始噪声的低频成分逐渐得到改进,从而持续增强时间一致性和主体外观。

这一方法的发布为人工智能视频生成领域带来了新的突破,将有望提高视频生成的质量和时间一致性。随着这一技术的不断发展和完善,相信将会为视频内容创作和人工智能应用带来更多的可能性。

举报

  • 相关推荐
  • 长视频,要MCN化?

    过去十多年,长视频平台习惯用头部综艺与大剧撬动增长:内容够强,自然破圈,声量带动会员与广告。 这套“内容中心逻辑”曾行之有效。 但短视频重写了注意力分配。用户不再愿意投入整段时间追一个叙事,三十秒的情绪刺激就足以满足娱乐需求。内容生命周期被压缩,哪怕是重金制作,也可能上线当周见顶、难以延展。 在这种环境下,平台不得不寻找新的增长方式。�

  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • AI日报:HeyGen发布AI视频翻译引擎;科大讯飞推星火 X1.5;QQ浏览器推出AI+小窗

    本期AI日报聚焦多项技术突破:HeyGen推出精准唇形同步的视频翻译引擎;科大讯飞发布星火X1.5大模型,提升多语言处理能力;QQ浏览器新增AI助手浮窗;科大讯飞推出软硬一体方案,实现高噪声环境精准识别;谷歌Gemini 3 Pro预览版支持百万级上下文窗口;Comfy Cloud让Stable Diffusion实现零门槛创作;谷歌Gemini新增深度研究功能,可整合邮件生成智能报告;上海AgiBot机器人10分钟完成复杂制造任务,重塑生产效率。

  • 冷美人退赛后冲上热搜第一:本人1分钟视频报价50元

    微博话题冷美人退赛”冲上热搜榜第一名,引发关注。 据媒体报道,湖南张家界七星山景区荒野求生挑战赛热门选手冷美人”因体检未通过遗憾退赛。 知情人士称,幸好当时旁边有人把她扶住了,然后送往医院,冷美人”醒过来第一句话就是这是哪?要去哪里”,她感到非常遗憾,说着不甘心”,还说给你们添麻烦了”。 据悉,冷美人”本名叫杨朝芹,来自云南,在这次�

  • 短视频加速跑入AI时代

    「现在是西天取经的第996天,刚把师父从妖怪嘴里救出来,师父身上都还是热乎的,我们就马不停蹄开始出发了。」在抖音,都能看到《西游记》里师徒四人的取经vlog了。 采访高考完刚出考场的爱因斯坦、孟德尔、门捷列夫;慈溪逛颐和园Vlog、大禹治水现场直播,各种AI生成的视频成为网友「玩梗搞抽象」的核心生产力。 尽管在专业影视

  • 剪辑快人一步!索尼ICE-Cloud助力婚礼视频团队高效高质交付

    北京二十四格文化有限公司(24Frames)成立于2004年,专注极致纪实影像美学,深耕婚礼电影、商业宣传、纪录片、综艺及艺人合作等领域。团队以真实事件与情感为核心,融合高级审美与技艺,打造富有共情力的影片,助力品牌传递深度价值。面对跨地域协作与高清素材传输等挑战,公司通过索尼与分秒帧联合推出的ICE-Cloud云平台优化流程,实现拍摄至交付的高效协同,显著�

  • 专业创作者之选:佳能R50V在视频、Vlog与直播领域的全能表现

    佳能R50V相机专为视频创作者设计,集专业视频制作、Vlog记录与高质量直播于一体。支持6K超采样4K视频录制,配备10-bit 4:2:2色彩与Canon Log3,保障画质细腻且后期空间大。机身仅323克,便携性强,优化自拍与竖拍操作,内置美颜与智能对焦功能。直播时可通过USB直连电脑,实现4K 60P高清输出。它融合专业性能与易用性,是应对多种创作需求的理想选择。

  • 保洁阿姨拍“土味说车”视频出圈:一口地道的东北话

    近日,哈尔滨一家雷克萨斯汽车经销店的保洁阿姨凭借一条“土味说车”视频在网络上迅速走红。“老板买车吗?这大轱辘你喜欢吗?黢黑式轮毂喜欢吗?”阿姨一口地道的东北话,搭配着并不十分娴熟的车辆专业术语,这种反差萌受到了众多网友的喜爱。 这位出镜的保洁阿姨今年58

  • 美食视频神器?佳能R50V用清晰画质与诱人色彩,让你随手一拍即专业

    佳能R50V相机凭借卓越画质与色彩表现,成为摄影爱好者的得力伙伴。其针对人像、美食、街头三大高频场景深度优化:人像拍摄可呈现自然通透肤色,五级平滑皮肤模式保留肌理细节;美食记录通过2420万像素传感器与14种色彩滤镜,精准还原食材质感与诱人色泽;323克轻巧机身配合高速对焦系统,轻松捕捉街头瞬间。相机以“拍得好、美、轻松”为核心,精准满足用户日常拍摄需求,让高质量影像记录变得简单愉悦。

  • 拍照视频,无需妥协:佳能R50V以全能双修定义创作新标准

    佳能R50V以“全能双修”定位成为市场焦点,在视频与摄影两大核心维度表现均衡专业。搭载2420万像素APS-C画幅CMOS与DIGIC X处理器,支持6K超采4K录制及专业格式,配备10bit色深。机身仅重323克,新增竖拍优化与14种滤镜,支持USB一线连播。具备1/8000秒快门与第二代全像素双核AF系统,可精准识别多类主体。配合RF-S电动变焦镜头实现广角自拍,覆盖Vlog、直播、人像等多场景,以约6000元定价降低专业创作门槛,成为内容创作者的热门选择。

今日大家都在搜的词: