首页 > 业界 > 关键词  > CamCo最新资讯  > 正文

CamCo:可控制相机的3D 一致图像到视频生成

2024-06-05 14:50 · 稿源:站长之家

划重点:

🔍 提供了一个可控制相机姿态的图像到视频生成框架

🔍 引入 Plücker 坐标和极线约束注意力,实现了三维一致性

🔍 通过结构光算法对真实世界视频进行微调,改进了对象运动的合成效果

站长之家(ChinaZ.com) 6月5日 消息:研究提出了一种新颖的可控制相机姿态的图像到视频生成框架 ——CamCo,用于生成高质量、三维一致的视频。通过引入 Plücker 坐标,为预训练的图像到视频生成器提供了精确参数化的相机姿态输入。

产品入口网址:https://top.aibase.com/tool/camco

为了增强生成的视频的三维一致性,研究人员在每个注意力模块中集成了极线约束注意力模块,以对特征图施加极线约束。此外,通过结构光算法对真实世界视频进行微调,以改进对象运动的合成效果。实验结果表明,与之前的模型相比,CamCo 在三维一致性和相机控制能力方面有显著的改进,同时能够有效地生成合理的对象运动。

image.png

CamCo 是一个全新的可控制相机的图像到视频生成框架,可以生成高质量、三维一致的视频。CamCo 通过使用 Plücker 坐标和极线约束注意力块将相机参数注入模型中。研究人员还引入了一个数据筛选流程,用于处理带有动态主体的真实世界视频,并通过这个筛选后的数据集对 CamCo 进行微调,以提高其生成具有相机自我运动和动态主体的视频的能力。

给定一张单独的图片和一个相机序列作为输入,CamCo 模型可以合成符合相机条件并具有三维一致性的视频。我们支持室内、室外、以物体为中心的和文本到图像生成的图片。最后一行的提示为 "一个繁茂的花园,里面有各种颜色的盛开的玫瑰,中间蜿蜒着一条石子路",第一帧的相机姿态以紫色显示。

举报

  • 相关推荐
  • 长视频,要MCN化?

    过去十多年,长视频平台习惯用头部综艺与大剧撬动增长:内容够强,自然破圈,声量带动会员与广告。 这套“内容中心逻辑”曾行之有效。 但短视频重写了注意力分配。用户不再愿意投入整段时间追一个叙事,三十秒的情绪刺激就足以满足娱乐需求。内容生命周期被压缩,哪怕是重金制作,也可能上线当周见顶、难以延展。 在这种环境下,平台不得不寻找新的增长方式。�

  • 端侧AI驱动产业链变革,elexcon2026聚焦芯片/存储/嵌入式核心器件创新

    近期华为、三星、追觅、阿里巴巴等科技企业密集发布智能穿戴新品,推动设备从“手机配件”向“独立智能终端”转型。这一趋势正深刻影响上游技术路径与产业格局,在AI芯片、存储与嵌入式领域引发新一轮技术升级与价值重构。中国成为全球创新引擎,2025年第二季度全球腕戴设备出货量同比增长12.3%,中国市场增速达33.8%,占据全球近半份额。端侧AI驱动技术升级,供应�

  • 品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

    某互联网大厂品牌总监分享:投入200万SEO使"企业级CRM"关键词在Google排名第一,但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时,AI回答中根本没有该品牌。更值得警惕的是,竞品不仅被提及,还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区:企业不知道AI如何"看待"自身品牌。 数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道,而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念,通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力,并给出五步实施流程:建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明,系统化GEO优化能在3个月内提升品牌提及率33个百分点,证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。

  • 科普 | 读懂HBM和DRAM,才懂AI算力未来

    在AI算力需求激增的背景下,存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术:SRAM凭借高速读写特性在CPU缓存中不可替代;DRAM作为数字世界的“主内存”,在容量与速度间实现平衡;HBM则通过3D堆叠架构革命性提升带宽,突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长,预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破,并开始布局HBM技术,正通过持续技术积累提升在全球半导体生态中的地位。

  • 短视频加速跑入AI时代

    「现在是西天取经的第996天,刚把师父从妖怪嘴里救出来,师父身上都还是热乎的,我们就马不停蹄开始出发了。」在抖音,都能看到《西游记》里师徒四人的取经vlog了。 采访高考完刚出考场的爱因斯坦、孟德尔、门捷列夫;慈溪逛颐和园Vlog、大禹治水现场直播,各种AI生成的视频成为网友「玩梗搞抽象」的核心生产力。 尽管在专业影视

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • 以数字引擎驱动未来——太平洋电信数字化平台E-com正式上线

    太平洋电信推出数字化服务平台E-com,通过模块化架构将复杂云网安方案拆解为标准化组件,实现可视化配置管理。该平台提供方案设计、在线采购、售后服务全流程支持,内置模板降低技术门槛,让企业用户可自主搭建专属方案。同时整合e-Go在线商城实现快速下单,推动行业从价格竞争转向服务价值竞争,构建开放服务生态。

  • AI日报:HeyGen发布AI视频翻译引擎;科大讯飞推星火 X1.5;QQ浏览器推出AI+小窗

    本期AI日报聚焦多项技术突破:HeyGen推出精准唇形同步的视频翻译引擎;科大讯飞发布星火X1.5大模型,提升多语言处理能力;QQ浏览器新增AI助手浮窗;科大讯飞推出软硬一体方案,实现高噪声环境精准识别;谷歌Gemini 3 Pro预览版支持百万级上下文窗口;Comfy Cloud让Stable Diffusion实现零门槛创作;谷歌Gemini新增深度研究功能,可整合邮件生成智能报告;上海AgiBot机器人10分钟完成复杂制造任务,重塑生产效率。

  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • 航天员同款耳机出圈!能抗住太空噪音的声阔(soundcore)耳机,背后究竟有哪些硬科技?

    11月3日,央视新闻发布中国航天员在空间站佩戴声阔耳机享受烧烤的视频,展现中国航天科技的成熟与自信。声阔耳机通过严苛太空环境测试,代表中国制造业最高水准,其卓越降噪与音质技术为航天员创造宁静空间。作为安克创新旗下品牌,声阔产品已覆盖全球超56个市场,2024年实现中国音频品牌无线耳机全球出货量第一,彰显"中国智造"从技术追赶到创新引领的转型。

今日大家都在搜的词: