首页 > 业界 > 关键词  > FreeInit最新资讯  > 正文

南洋理工开源创新性文生视频模型FreeInit

2024-01-05 09:20 · 稿源:站长之家

要点:

1、创新性文生视频模型FreeInit通过重新初始化噪声,改进时间的一致性。

2、研究人员发现视频扩散模型的推理初始化噪声中低频信息很难被完全移除。

3、FreeInit通过多次迭代重复采样优化过程,提升低频信息质量,改善生成视频质量。

站长之家(ChinaZ.com)1月5日 消息:南洋理工大学S实验室的研究人员开源了一种创新性文生视频模型,名为FreeInit。他们发现视频扩散模型在生成视频时存在时间一致性不足和不自然的动态效果。

image.png

开源地址:https://top.aibase.com/tool/freeinit

论文地址:https://arxiv.org/abs/2312.07537v1

为了解决这个问题,他们提出了一种通过重新初始化噪声的方法来改善时间一致性。他们发现视频扩散模型的推理初始化噪声中低频信息很难被完全移除,这可能是导致生成视频效果不佳的原因之一。为了验证FreeInit的有效性,研究人员进行了大量实验,结果显示FreeInit可以显著提高模型的时间一致性指标。

具体来说,FreeInit的采样优化过程包括多个步骤:

  1. 推理的第一步,FreeInit先初始化独立高斯噪声,然后通过离散采样策略采样生成初步的视频潜码。

  2. 利用扩散模型的去噪功能,从完全随机的噪声中采样出较为清晰的视频潜码。

  3. 获取上一步生成视频潜码的带有时间相关性的噪声版本,将生成的视频潜码通过原始的高斯噪声进行正向扩散过程,使其重新含有低频时间相关信息。

  4. 将含低频相关性噪声与新的高斯噪声高频部分结合,得到重新初始化的噪声,并为下一轮采样的初始提供输入。

通过多次重复迭代,FreeInit可以进一步累积提升低频信息质量,逐步弥合训练和推理的初始化差距,从而改善生成视频的质量和时间一致性。研究人员表示,FreeInit在多个文到视频生成模型上进行的实验中取得了较好的效果。他们开源了FreeInit的代码和论文,供研究者们参考和使用。

举报

  • 相关推荐
  • AI日报:Sora免费额度要缩水;月之暗面发布Kimi Linear架构;Canva免费放出Affinity专业设计套件

    本期AI日报聚焦多项技术突破:OpenAI调整Sora免费额度并推出付费计划,标志视频生成进入商业化;Figma收购Weavy推出AI设计工具;OpenAI发布基于GPT-5的安全研究助手Aardvark;全球首款AI字体生成器Dr Fonts上线;中国信通院发布大模型一体机应用报告;月之暗面推出Kimi Linear架构实现推理速度6倍提升;Canva免费发布Affinity设计套件挑战Adobe;Chrome新增Gemini驱动的图像生成与深度搜索功能。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • MiniMax M2:所有坑都踩过,才能做出所有人都能用上的Agent

    最近一个月,基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作,大体还是走出了两条路。 一种是在诸多难点里选择一个死磕,成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象,但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进,在一个最全面的基础模型蓝图里不停交出一个个关键拼图。 已经有了全

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • 今年双11,为什么买百吋电视更推荐RGB-Mini LED?

    今年双11,百吋电视因用户消费升级与居住改善需求增长显著。京东数据显示其销量同比增长200%,反映用户不再满足“够用”尺寸,而是追求影院级沉浸体验。百吋电视受追捧源于超高清内容普及与技术门槛降低,但需注意大屏对显示技术要求更高。RGB-Mini LED技术通过红绿蓝三原色独立背光实现精准控光,解决传统电视色彩与亮度矛盾,如海信UX等产品以高色域、分区控光提升画质。选购时需关注画质芯片与屏幕抗反射能力,确保色彩真实与观看舒适。尺寸是基础,画质才是灵魂。

  • iPad mini 8外观巨变:去掉扬声器开孔

    iPad mini 8将采用全新设计,去掉扬声器开孔并提升防水性能,同时苹果也在为iPad mini 8研发一套新的扬声器系统。 据悉,iPad mini 8可能采用屏幕激励器方案,通过驱动屏幕振动来发出声音,其原理是将振动机械能直接传输到屏幕,然后让屏幕代替传统扬声器振膜发声。 具体来说,它是通过在机身内部的微驱动单元(激励器)来激励中框 ,从而带动屏幕振动发声。

  • ​你的品牌在豆包、DeepSeek里搜不到?这份GEO品牌监控攻略,3步把曝光拉满

    GEO指数是AI搜索时代的品牌可见度衡量指标,量化品牌被AI引用、推荐和对比的频率与深度。与传统SEO比拼搜索排名不同,GEO衡量的是品牌在AI回答中的提及率和好感度。数据显示,高GEO指数品牌在AI搜索中的转化率是传统SEO的3.4倍。文章通过案例说明,企业可通过监控竞品差距、补充缺失内容关键词、优化AI提示词等策略提升GEO指数。建议立即使用AIBase平台免费体验GEO监控,把握AI搜索新机遇。

  • DeepSeek崩了上热搜 页面显示“服务器繁忙”

    截至2025年11月3日,大量用户在微博话题#DeepSeek崩了#下集中反馈,DeepSeek平台出现服务异常状况,引发广泛关注。综合各方信息,此次故障呈现多方面表现,对用户使用造成显著影响。 众多用户表示遭遇服务全面中断问题,在尝试使用平台

  • 中国顶级画质+法国顶奢音效!海信RGB-Mini LED电视UX在巴黎歌剧院秀出影音王炸组合

    近日,海信与法国高端音响品牌帝瓦雷在巴黎歌剧院联合举办跨界盛典,推出全球首款RGB-Mini LED电视116UX,搭载双方定制的“双剧场级音响”系统,内置6.2.2声道HiFi音响与20个发声单元,实现360°环绕声场。通过精准声学调校,还原交响乐与人声细节,营造“余音绕梁”的沉浸体验。双方还成立联合实验室,推动帝瓦雷专利算法首次应用于电视。多款旗舰产品同步搭载合作音频系统,为家庭用户带来殿堂级影音享受。

今日大家都在搜的词: