首页 > AI头条  > 正文

让大象转身!谷歌黑科技 ReCapture:可一键生成“多机位”视频大片

2024-11-08 11:35 · 来源: AIbase基地

谷歌研究院最近推出了一项名为ReCapture的全新技术,这项技术可以让你从全新的视角重新体验你自己的视频。ReCapture技术可以根据用户提供的视频,生成一个带有自定义摄像机轨迹的新版本,这意味着你可以从原本视频中没有的视角观看视频内容,并且还能保持视频中人物和场景的原始运动。

ReCapture 就像是一位神奇的剪辑师,可以根据你提供的视频,生成一个带有全新视角的新版本。 比如说,你用手机拍了一段狗狗玩耍的视频,ReCapture 可以帮你生成一段从狗狗视角拍摄的视频,是不是很神奇?

那么, ReCapture 究竟是如何实现这种“魔法”的呢? 其实,它背后的原理并不复杂。它首先会利用多视角扩散模型或点云渲染技术,根据你想要的新视角,生成一个粗略的视频。 这个粗略视频就像是一块未经雕琢的璞玉,画面可能不完整,时间也不连贯,就像喝醉了酒一样摇摇晃晃。

QQ20241108-113341.jpg

接下来,ReCapture 会祭出它的秘密武器——“遮罩视频微调”技术,对这个粗略视频进行“精雕细琢”。 这个技术就像是一位技艺高超的工匠,会用两种特殊的工具——空间 LoRA 和时间 LoRA,对视频进行修复和优化。 空间 LoRA 就像是一位“美容师”,负责学习原始视频中的人物和场景信息,让画面更加清晰美观。 而时间 LoRA 则是一位“节奏大师”,负责学习新视角下的场景运动,让视频播放更加流畅自然。

QQ20241108-113351.jpg

经过这两位“大师”的联手打造,粗略视频摇身一变,变成了一个清晰、连贯、充满动感的全新视频。 不仅如此,为了让视频效果更加完美,ReCapture 还会使用 SDEdit 技术对视频进行最后的润色,就像化妆一样,让视频更加精致细腻。

谷歌的研究人员表示,ReCapture 不需要大量的训练数据,就可以处理各种类型的视频和视角转换。 这意味着,即使你只是一个普通的视频爱好者,也可以用 ReCapture 轻松制作出专业级的“多机位”视频。

项目地址:https://generative-video-camera-controls.github.io/

  • 相关推荐
  • DeepSeek + Kimi一键生成高质量PPT

    文章介绍如何用两个免费AI工具快速制作PPT:先用微信版DeepSeek生成大纲,再用Kimi智能助手一键生成PPT。操作步骤包括:1)在微信搜索DeepSeek,输入需求生成结构化大纲;2)访问Kimi网页版,将大纲粘贴至PPT助手功能;3)选择模板样式,一键生成PPT。该方法适用于教师备课、学生汇报、职场报告等多种场景,能自动完成从构思到排版的全部流程,高效且效果惊艳。

  • AI简历教程!用 deepseek 一键生成高质量简历

    本文介绍如何利用AI工具Deepseek快速制作专业简历。传统简历制作依赖WPS模板或作图软件,过程繁琐。现在通过Deepseek平台,只需输入自然语言指令(如工作经验、技能等关键信息),系统即可自动生成排版精美的HTML版简历,还能转换为PDF格式。操作流程分三步:1.访问官网输入需求指令;2.查看并运行生成的HTML代码;3.保存文件或转为PDF。该工具特别适合求职者快速制作突出个人优势的专业简历,大幅提升求职效率。

  • EPIC免费喜加一入库师父+一键下载安装MOD教程分享

    EPIC平台限时免费领取武术格斗游戏《师父》,原价139元。该游戏动作设计流畅,招式炫酷,完美还原真实武术体验,适合功夫迷玩家。游戏支持MOD扩展,可增添更多内容。领取教程:1.开启加速器后登录EPIC,在商店页面找到免费游戏板块领取;2.通过加速器搜索《师父》,使用MOD助手一键安装各种MOD。注意直接领取可能出现卡顿,建议配合加速器使用。文中还提供了20小时免费加速福利码"免费加速",帮助玩家顺利领取游戏。

  • 一键解绑前任APP账号!中国移动“二次号码焕新”服务上线

    通过中国信息通信研究院的码号服务平台对接互联网企业,可快速解绑手机号码开户前已经绑定的互联网应用,有效解决用户使用二次号码”带来的相关问题。

  • 豆包视频生成模型Seedance 1.0 lite发布:“迅速生成影视级的视频

    火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品:1)Seedance 1.0 lite视频生成模型,支持5-10秒480P/720P视频生成,具备影视级画质和生成速度优势,适用于电商广告、影视创作等场景;2)豆包1.5视觉深度思考模型,仅20B参数但具备多模态理解能力,在60项基准测试中38项达SOTA水平;3)升级版豆包音乐模型,新增英文歌曲创作功能,并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • Anthropic推出Claude网络搜索API,押注“后谷歌时代”信息访问

    现在,开发者能够借助网络搜索功能,构建人工智能解决方案,无需管理自己的网络搜索基础设施,就能利用最新信息……

  • 京东发布“红京计划”:小红书广告笔记一键直达

    京东与小红书深化合作推出"红京计划",实现三大升级:1)流量联动,打通内容种草到京东下单全链路,用户可一键跳转购买;2)数据联动,通过精准分析优化营销策略;3)合作模式灵活,支持双平台下单。该计划自6月5日起全面开放,覆盖京东大部分品牌商家,显著提升转化率和购物体验,标志着双方在电商营销领域进入新阶段。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 尊界S800首创前后排一键隔绝功能:视觉、声音全阻断

    今日晚间,尊界汽车举办尊界S800上市发布会。 会上,余承东介绍,尊界S800车身尺寸为5480 x 20001542mm,轴距3370mm,车内拥有3.4m㎡的纯平地板设计,实现一排1033mm头部空间与959mm腿部空间,二排1018mm头部空间与1240mm腿部空间。 车内配备寰宇三联屏中控设计,搭配华为临界抬头显示系统,提供76英寸的成像的面积,HUD可显示道路导航、倒车影像、娱乐观影等信息。 同时,尊界S800�

今日大家都在搜的词: