首页 > 业界 > 关键词  > Lumiere最新资讯  > 正文

谷歌发布视频生成模型Lumiere 运动幅度和一致性表现良好

2024-01-24 13:48 · 稿源:站长之家

站长之家(ChinaZ.com)1月24日 消息:Lumiere 是谷歌发布的第三个视频生成模型,这次的模型演示视频质量非常高,运动幅度和一致性表现也很好。除了视频生成,该模型还支持各种视频编辑和生成控制能力。

Lumiere 是一款先进的模型,专门用于将文本转换为视频,这在视频合成领域是一大挑战。为了实现这一目标,谷歌采用了一种创新的空间-时间 U-Net 架构。

image.png

项目地址:https://top.aibase.com/tool/lumiere

这种架构能够一次性完成整个视频时长的生成,与传统视频模型不同。传统模型通常是先合成关键的远程帧,然后通过时间上的超级分辨率技术来处理,这种方法难以保持视频的全局时间连贯性。

Lumiere 通过在空间和关键的时间维度进行上下采样,并利用预先训练好的文本到图像扩散模型,使得该模型能够直接生成全帧率、低分辨率的视频,并且在多个空间-时间尺度上进行处理。

该模型在将文本转换成视频方面取得了领先成果,并证明了该设计能够轻松应用于各种内容创作和视频编辑任务,包括将图像转换为视频、视频修补和风格化视频创作。

举报

  • 相关推荐
  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • 豆包视频生成模型Seedance 1.0 lite发布:“迅速生成影视级的视频

    火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品:1)Seedance 1.0 lite视频生成模型,支持5-10秒480P/720P视频生成,具备影视级画质和生成速度优势,适用于电商广告、影视创作等场景;2)豆包1.5视觉深度思考模型,仅20B参数但具备多模态理解能力,在60项基准测试中38项达SOTA水平;3)升级版豆包音乐模型,新增英文歌曲创作功能,并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

  • 持续霸榜!可灵2.0模型登顶全球视频生成大模型榜单

    快手旗下可灵AI 2.0模型在权威AI评测中表现优异,以1124分超越自研1.6版本,连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示,自2023年6月上线以来,可灵AI全球用户突破2200万,月活激增25倍,累计生成视频1.68亿个、图片3.44亿张。商业化方面,其单月流水已超千万元,并与伊利、vivo等头部品牌达成深度合作,展现出AI视频生成技术的广阔商业前景。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • 腾讯混元视频生成工具全新开源:人物不会“变脸” 物体不会“漂移”

    腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造,支持文本、图像、音频等多模态输入,能生成高质量定制视频。主要功能包括:单/多主体视频生成、视频配音、局部编辑等,在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景,如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源,其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 国际媒体好评不断,Shokz韶音海外表现火力全开

    韶音科技在开放式耳机市场表现亮眼,其新一代动圈耳机OpenDots ONE凭借创新设计获得国际媒体高度评价。产品采用不对称动圈弧结构设计,搭载Bassphere低频聚合技术和自研声学算法,实现卓越音质表现。在日本众筹平台创下破亿纪录,北美市场联名款也广受欢迎。韶音已连续两年登顶全球运动耳机销量榜首,累计申请专利1408项。凭借技术创新实力,品牌荣获"2024中国出海品牌百强"等多项国际大奖,持续引领开放式耳机行业发展。

  • WXT 2025年以来上涨103%,在主要平台Token中表现最佳

    本文基于历史回报分析,历史回报不完全代表未来表现,文章观点仅供参考,不作为投资建议。

  • 谷歌扩展Gemini的“AI帝国”,涵盖汽车、手和电视

    自推出 Gemini 以来,谷歌已开始将其与 Gmail、谷歌云端硬盘、谷歌文档等自家服务相连接。如今,其愿景是将 Gemini 植入更广泛的 “安卓生态系统”,包括智能手表、汽车、电视等……