首页 > 业界 > 关键词  > CameraCtrl最新资讯  > 正文

CameraCtrl:让文本生成视频实现镜头控制 支持AnimateDiff控制镜头

2024-04-07 10:57 · 稿源:站长

划重点:

⭐镜头控制在视频生成中起着至关重要的作用,CameraCtrl 可以实现准确的镜头姿势控制。

⭐ 通过在已有的文本到视频模型上训练镜头编码器,CameraCtrl 实现了插拔式的镜头模块,提高了视频生成的控制精度。

⭐ 研究发现,采用不同数据集的视频可以增强镜头控制的可控性和泛化性。

站长之家(ChinaZ.com)4月7日 消息:近年来,随着人工智能技术的发展,视频生成领域取得了长足的进步。然而,在现有的文本到视频生成模型中,对镜头姿势的精确控制往往被忽视,而镜头姿势在视频生成中扮演着表达更深层叙事细微差别的影视语言角色。

为了解决这一问题,研究人员提出了 CameraCtrl,实现了对文本到视频模型的镜头姿势进行精确控制。使用AnimateDiff生成视频时,结合CameraCtrl可以控制镜头的运动轨迹。

image.png

在 CameraCtrl 的框架中,他们首先通过准确参数化镜头轨迹,然后在文本到视频模型上训练镜头编码器,实现了插拔式的镜头模块。这个模块能够将镜头表示集成到 U-Net 的时间注意力层中,从而控制视频生成的过程。实验结果表明,CameraCtrl 在实现精确的镜头控制和领域自适应方面取得了显著的效果。

研究人员还进行了对各种数据集的影响的综合研究,结果表明,具有不同镜头分布和类似外观的视频确实增强了镜头控制的可控性和泛化性。通过将不同领域视频进行镜头控制的实验,进一步证明了 CameraCtrl 的有效性。

CameraCtrl 为实现从文本和镜头姿势输入生成动态、定制化视频叙事迈出了重要一步。这一技术的应用前景广阔,有望在视频生成领域发挥重要作用。

产品入口:https://hehao13.github.io/projects-CameraCtrl/

举报

  • 相关推荐
  • 第一!世纪华通旗下Century Games登顶全球Top50手游商

    知名游戏媒体PocketGamer发布《2025年全球TOP50移动游戏商》榜单,世纪华通旗下Century Games从去年第7位跃居榜首,创下该榜单晋升速度新纪录。其成功源于持续创新与精准市场洞察:既实现《Whiteout Survival》等长线产品稳定运营,又凭借《Kingshot》等新作打造跨品类爆款,形成“双强驱动”格局。公司通过“微创新”策略结合AI技术提升研发效率,构建覆盖SLG、休闲、卡牌三大核心品类的产品矩阵。2025年上半年母公司世纪华通营收172亿元,同比增长85.5%,印证了其全球化布局与长效发展潜力。

  • 声启未来新章 BANG & OLUFSEN 铂傲 推出全新Beo grace耳机

    Bang & Olufsen推出全新无线耳机Beo Grace,融合纤薄铝制机身与卓越音质,体现品牌对声学创新与永恒设计的追求。耳机灵感源自高级珠宝,采用标志性抛光铝材打造,支持杜比全景声与自适应主动降噪技术,降噪效果较前代提升四倍。配备12毫米钛金属驱动单元,续航达4.5小时(搭配充电盒可达17小时),具备IP57防水防尘。通过NearTap™手势操控与定制电池管理系统,兼顾便捷使用与长效耐用,开启可佩戴声学新纪元。

  • Checkout.com正式推出Flow Remember Me: 一键支付,全球通用

    Checkout.com推出嵌入式支付产品Flow的"记住我"功能,消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示,该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络,并与Visa、Mastercard和Google达成AI智能体合作,助力商户在数字支付领域保持领先地位。

  • ChatExcel重磅发布:基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

    ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站,重构数据全链路,打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构,实现本地流畅运行GPT-oss-120B等大型模型,保障数据安全的同时显著提升分析效率。该方案以财务场景为例,支持多任务并行处理,将原本需1天完成的月度报表压缩至2小时,解决“数据不外发”与“高效处理”的核心矛盾。

  • 决战东方之巅!AGON爱攻迅猛龙CS24A以巅峰性能助力CAC 2025战火点燃

    完美世界电竞主办的CAC2025反恐精英亚洲邀请赛将于10月14日在上海举行,赛事升级为亚洲CS领域最高规格竞技殿堂,汇聚全球五大赛区16支顶尖战队角逐百万美元冠军奖金。AGON爱攻作为官方合作伙伴,推出专为CS打造的迅猛龙联名定制显示器CS24A,凭借610Hz超高刷新率与0.3ms极速响应等专业配置,助力选手稳定发挥。本届赛事还将通过“完美电竞合作伙伴联盟”构建完整电竞生态闭环,为亚洲巅峰对决提供坚实硬件支持。

  • 霸榜双雄齐步走!Century Games专列直达东京电玩展

    世纪华通旗下Century Games为参加2025东京电玩展(TGS2025)量身定制了游戏主题“专列”,覆盖地铁广告、户外展示、裸眼3D大屏等多元传播渠道。9月25日至28日展会期间,公司包下途经展馆的列车广告位,车厢内贴满《Whiteout Survival》与《Kingshot》海报,串联涩谷、浅草寺等人流密集站点。展馆外设置巨型玻璃钢装置,以两款游戏标志性场景为背景,结合本地化舞台节目与互动体验,强化品牌影响力。此次营销不仅为展会预热,更彰显公司深耕日本市场、以“场景化+本地化”策略提升用户粘性的决心。

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • 华为AI城市峰会:共建城市数智底座,AI CITY先锋城市案例发布

    9月18日,华为全联接大会2025期间举办AI城市峰会,聚焦智慧城市治理、政务服务与产业升级。华为发布“AI CITY 1234MNX”参考架构,通过智能云底座、安全保障体系及统一平台,推动城市全域智能化转型。会议分享了深圳、广州等地的实践案例,展示AI在政务、城市管理及工业领域的应用成效,并呼吁各方共建AI城市生态,加速数字化进程。

  • vivo自研蓝河操作系统3发布:vivo WATCH GT 2首发

    在2025年vivo开发者大会上,vivo正式发布自研蓝河操作系统3。该系统主打全链路智慧能力,基于轻量、模块化设计,将完整AI方案便捷部署至不同设备。即将发布的vivo WATCH GT 2首发搭载,升级智慧体验。系统内置视觉、听觉及感知唤醒等能力,原生支持AI识别、降噪等功能,并引入蓝心智能,支持问答、语音识别等。流畅度方面,搭载蓝河流畅引擎,实测资源消耗降低60%,绘制效率提升36%,调度切换开销下降58%,资源占用减少40%。

  • 创新驱动 芯耀未来——CPCA Show Plus 2025助力产业共享AI时代发展机遇

    2025年电子半导体产业创新发展大会暨国际电子电路(大湾区)展览会(CPCA Show Plus)将于10月28-30日在深圳举办。展会以“创新驱动,芯耀未来”为主题,汇聚超300家展商,覆盖PCB制造全产业链,聚焦AI时代产业升级。活动将展示智能制造、绿色环保方案,举办多场技术论坛,推动产业链高效对接与协同发展,助力行业把握智能化、低碳化新机遇。

今日大家都在搜的词: