首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

谷歌提出生成式图像动力学:让静态图片动起来

2023-09-18 10:12 · 稿源:站长之家

站长之家(ChinaZ.com)9月18日 消息:谷歌团队最新提出「生成图像动力学」,这项研究提出了一种基于图像空间的场景动力学先验模型。该模型可以将单张静态图片转换成无缝循环视频,或者用于与图片中的对象进行交互。

image.png

项目地址:https://generative-dynamics.github.io/#demo

研究人员首先从包含自然振荡运动的真实视频中,如树叶摇曳、花朵飘动、蜡烛跳动和衣物飘扬等,提取运动轨迹。然后利用这些轨迹数据训练模型学习图像动力学的先验知识。对于任意输入图片,模型可以预测每个像素的长期运动表示,作者称之为神经随机运动纹理。这些表示随后转换为密集的运动轨迹,可生成整段视频。配合图像渲染模块,这些轨迹可以用于各种下游应用,如将静态图片转换成无缝循环视频,或者让用户可以与图片中的对象进行交互。

利用神经随机运动纹理,研究人员可以模拟对象对用户交互的响应。用户可以在图片中拖动一个点,然后释放手指,场景会根据点的位置和方向产生相应运动。用户还可以点击选择不同的图片进行交互。

通过调整运动纹理的振幅,研究人员可以放大或缩小物体的运动效果。他们还可以通过插值预测的运动纹理来生成慢动作视频。

该方法自动将单张静态图片转换成无缝循环视频,具有广阔的应用前景。它为创作更加逼真的数字内容提供了可能,如将电影片段的单帧转换为可交互的动态场景。该研究为基于单张图片合成视频开辟了新的思路。

特点:

(1)从视频中提取自然运动轨迹,训练获得图像动力学先验模型

(2)对静态图片预测像素级长期运动表示,即神经随机运动纹理

(3)将运动纹理转换为密集运动轨迹,合成动态视频

(4)支持用户与图片中的对象交互

(5)调整运动纹理振幅来控制运动效果

(6)通过插值产生慢动作视频

举报

  • 相关推荐
  • 谷歌透露Gemini每次回答消耗能量:相当于微波炉运行1秒钟

    近日,谷歌发布了一份技术报告,详细说明了其Gemini大模型在每次查询中消耗的能源量。 据谷歌介绍,这是迄今为止大型人工智能公司发布的最透明估算,也是研究人员期待已久的报告。 报告称,Gemini应用的文字回答平均每次消耗0.24瓦特小时(Wh)的能量,大约相当于运行微波炉一秒钟,并排放0.03克二氧化碳当量。 据此前媒体报道,谷歌近日发布Gemini系列最轻量版本Gemma 3

  • 谷歌Pixel 10系列发布:首发Tensor G5芯片 售价799美元起

    今日凌晨,谷歌Pixel10系列正式发布,该系列包含Pixel10、Pixel10Pro及Pixel10Pro XL三款直板旗舰机型,起售价定为799美元(约合人民币5733元)。与此同时,谷歌还推出了首款折叠屏旗舰Pixel10Pro Fold,进一步丰富了产品线。 在设计语言上,Pixel10系列延续了上代的经典

  • 量子机器学习或“搅动”芯片制造,谷歌/微美全息攻关突破取得阶段性成果

    澳大利亚科研团队开发出结合人工智能和量子计算原理的新型量子机器学习技术,可能改变微芯片制造方式。该技术仅需5个量子比特,性能优于7种经典机器学习算法,可立即应用于现有量子架构。2023年量子计算领域取得多项突破:微软成功创建拓扑量子比特,D-Wave量子退火处理器性能超越经典模拟器,谷歌量子AI团队探讨扩展超导量子计算机面临的挑战。量子科技正从理论研究迈向工程实现阶段,微美全息(WIMI.US)等企业积极推进量子密码生成器、QGAN技术等研发,有望为数据安全提供更高保障。量子技术发展已进入关键时期,将推动行业进入更安全可靠的发展阶段。

  • 全球首款防尘折叠屏!谷歌Pixel 10 Pro Fold发布:12900元起

    今天凌晨,谷歌新款折叠屏Pixel 10 Pro Fold正式发布,这是全球首款支持防尘的折叠屏旗舰,起售价1799美元(约合人民币12900元)。 据悉,谷歌Pixel 10 Pro Fold拥有IP68防护等级,这意味着它能完全防尘防水,谷歌在防护能力方面引领行业。

  • 苹果被贴脸开大:AI跳票后被谷歌公开嘲讽

    今天谷歌发布一则广告片,谷歌在这则广告中就苹果AI跳票进行了嘲讽,喊话苹果用户应该购买Pixel 10系列智能手机。 谷歌在广告片中表示,如果你因为某个即将推出”的功能去购买一部新手机,如今这个即将推出”的时间已经持续了一整年,要么你需要重新定义即将推出”,要么你直接换一部手机。 此前在2024年苹果全球开发者大会上,苹果展示了由Apple Intelligenc驱动的个性

  • 报价345亿美元!AI新贵公司计划收购谷歌旗下Chrome浏览器

    美国AI搜索新贵Perplexity正考虑以高达345亿美元的全现金方式,收购谷歌旗下拥有逾30亿用户的Chrome浏览器。 成立仅三年、总部位于旧金山的Perplexity(由阿拉温德斯里尼瓦斯等人创立),专注于生成式AI搜索引擎,直接挑战谷歌和微软必应。 截至2024年4月,其月活跃用户约1500万,主要依靠付费订阅盈利。这家初创公司已从英伟达、软银集团等巨头筹集约10亿美元融资,最新估值

  • 谷歌Pixel 10 Pro XL渲染图曝光:两大配色 8月20日发布

    谷歌Pixel 10 Pro XL的官方宣传渲染图近日曝光,新机将于8月20日发布,还剩不到2周的时间。 此次谷歌Pixel 10 Pro XL提供了月石”(Moonstone)和黑曜石”(Obsidian)两种配色,分别呈现柔和的浅灰蓝色调和经典的暗灰配金属高光边框设计。 机身右侧依旧是电源键与音量键组合,背部为横向延展的胶囊形三摄模组,内含闪光灯及红外温度传感器,整体厚度与重量与上代基本一致。 �

  • 谷歌Pixel Watch 4外观揭晓:41/45mm双尺寸、5款配色

    谷歌Pixel Watch 4智能手表的官方渲染图目前已提前曝光,此次Pixel Watch 4提供了41mm和45mm两种尺寸,以满足不同用户的需求。 其中,41mm版本拥有黑曜石、瓷器白、柠檬绿和鸢尾紫四种颜色,而45mm版本则提供黑曜石、瓷器白和月光石三种颜色。 从曝光的渲染图来看,Pixel Watch 4的设计延续了谷歌一贯的简约风格,同时在色彩搭配上更加大胆和时尚。

  • 谷歌DeepMind发布Genie 3世界模型:支持实时生成交互式3D环境

    据媒体报道,谷歌DeepMind正式发布了其新一代通用世界模型Genie 3。 该模型能够根据用户的文本提示,快速生成丰富多样的交互式虚拟环境。Genie 3不仅能够以每秒24帧的速度生成720p分辨率的高清交互式3D世界,更创新性地引入了 可提示世界事件” 功能。用户通过简单文本指令,即可实时修改虚拟环境,显著提升了沉浸感与创造力。 DeepMind视Genie 3为迈向通用人工智能(AGI) 的�

  • AI日报:百度推全球首批AI数字员工;Claude Opus4.1出世;谷歌DeepMind发布世界模型Genie 3

    AI日报栏目聚焦人工智能领域最新动态:1)Claude Opus4.1发布,编程能力提升74.5%;2)OpenAI开源GPT-OSS-120B和20B模型;3)谷歌DeepMind推出革命性3D世界模型Genie3;4)谷歌Gemini新增AI故事书生成功能;5)ElevenLabs推出商用AI音乐生成器;6)百度智能云发布首批AI数字员工;7)OpenAI估值或达5000亿美元;8)00后创业者推出云端AI协作开发工具Vinsoo;9)腾讯启动2026校园招聘,重点培养AI人才;10)马斯克宣�

今日大家都在搜的词: