首页 > 业界 > 关键词  > MagicTime最新资讯  > 正文

AI也可以生成延时视频了 MagicTime输入文本即可生成植物生长视频

2024-04-10 10:08 · 稿源:站长之家

站长之家(ChinaZ.com)4月10日 消息:近期,一个名为MagicTime的新模型引起了业界的广泛关注。这个模型专注于生成变形时间延迟视频,基于DiT(Deformable Image Transformer)的架构,解决了现有文本到视频(T2V)生成模型未能充分编码现实世界物理知识的问题。

image.png

项目演示:https://top.aibase.com/tool/magictime

代码:https://github.com/PKU-YuanGroup/MagicTime

在传统的T2V生成中,生成的视频往往具有有限的动作和变化,这是由于这些模型无法准确反应现实世界的物理规律。为了克服这一限制,MagicTime引入了变形时间延迟视频的概念,旨在提高视频生成的质量和真实性。

MagicTime的主要功能包括:

变形时间延迟视频生成:MagicTime专注于生成包含物理知识、长期持续性和强烈变化的变形视频,这些视频比常规视频包含更丰富的物理知识和变形过程。

MagicAdapter方案:通过设计MagicAdapter方案,MagicTime能够解耦空间和训练时间,从变形视频中编码更多的物理知识,并转换预训练的T2V模型以生成变形视频。

动态提取帧策略:引入动态帧提取来策略适应变化范围更广的变形时间延迟视频,更好地体现物理知识。

Magic Text-Encoder:改进了对变形视频提示的理解,提高了文本到视频生成的准确性和质量。

ChronoMagic数据集:创建专门的时间延迟视频文本数据集ChronoMagic,为解锁变形视频生成能力提供支持。

MagicTime的目标是通过生成高质量和动态的变形视频,证明其对生成时间延迟视频的依据性和有效性,为构建物理世界的现变形模拟器开辟了一条希望的道路。

此外,MagicTime还计划将额外的变形景观时间延迟视频集成到相同的注释框架中,查找ChronoMagic-Landscape数据集,然后使用该数据集Open-Sora-Plan v1.0.0,获得MagicTime-DiT模型。

举报

  • 相关推荐
  • 腾讯元宝又叒叕上新:一句话即可生成Mermaid图表

    据其介绍,只要在元宝里输入一句话,比如帮我用Mermaid生成一张xxx流程图”,系统就会自动生成饼图、流程图、甘特图、时序图等。生成后,用户可以立刻预览效果,或者复制代码拿去其他地方使用。 腾讯元宝介绍,这个功能比较适合用在学术研究、工作报告、数据分析等场景,能帮助用户把复杂的内容快速变成图表,让信息更直观,沟通也更高效。

  • 低端显卡登上AI的大船!6GB显存就能生成高质量视频

    快科技4月20日消息,GitHub的Lvmin Zhang联合斯坦福大学的Maneesh Agrawala,发布了一项突破性的新技术FramePack,通过在视频扩散模型中使用固定长度的时域上下文,可以更高效地生成时间更长、质量更高的视频。根据实测,基于FramePack构建的130亿参数模型,只需一块6GB显存的显卡,就能生成60秒钟的视频。FramePack是一种神经网络架构,使用多级优化策略,完成本地AI视频生成。目前,�

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 微软CEO:公司多达 30% 的代码是由 AI 生成的!

    微软首席技术官凯文·斯科特(Kevin Scott)曾表示,预计到 2030 年,将有 95% 的代码是由 AI 生成的……

  • 腾讯混元视频生成工具全新开源:人物不会“变脸” 物体不会“漂移”

    腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造,支持文本、图像、音频等多模态输入,能生成高质量定制视频。主要功能包括:单/多主体视频生成、视频配音、局部编辑等,在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景,如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源,其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

  • 可灵AI开启视频生成2.0时代!全球用户数已突破2200万

    4 月 15 日,快手可灵AI在北京中关村国际创新中心举行“灵感成真”2. 0 模型发布会,宣布基座模型再次升级,面向全球正式发布可灵2. 0 视频生成模型及可图2. 0 图像生成模型。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • ChatGPT上线图库功能:可管理AI生成图片

    快科技4月16日消息,据报道,OpenAI近日宣布将为ChatGPT推出全新的Image Library图库功能,该功能将帮助用户更高效地管理和查看AI生成的图像。这项创新功能将逐步向所有用户开放,包括移动端和网页端的免费版、Plus版及Pro版用户。新功能的设计充分考虑了用户体验的便捷性。用户只需点击ChatGPT侧边栏的Library入口,就能进入一个直观的图像网格界面。在这个界面中,用户可以轻�

  • 4月18日!| Meet·未来大课:智变·新生——生成式AI重构商业未来

    智变·新生——生成式AI重构商业未来就在 4 月 18 日,你准备好了吗?与我们一起,迎接商业未来的“智变”与“新生”!时间: 2025 年 4 月 18 日 13:30-17:30地点:北京市海淀区中关村东升科技园规模:四百人盛会·全行业聚焦MEET·未来在数字经济与实体经济深度融合的背景下,生成式AI正从技术属性演变为产业竞争和社会变革的核心要素,生成式AI产品已广泛应用于交通、能源�

  • 谷歌Gemini整合Veo 2视频生成模型,8秒720P视频轻松搞定

    谷歌宣布又有一款 AI 模型将加入 Gemini,但这次它不仅仅是一个聊天机器人。