首页 > 业界 > 关键词  > DragAnything最新资讯  > 正文

快手出品!DragAnything:拖动锚点精准控制视频物体和镜头运动

2024-03-13 11:42 · 稿源:站长之家

划重点:

⭐️ 快手科技联合浙江大学研究团队提出了 DragAnything 方法,利用实体表示实现了对任何物体的运动控制。

⭐️ 对比现有的运动控制方法,DragAnything 在用户友好性、对象多样性和多对象控制方面具有优势。

⭐️ 在实验中,DragAnything 在 FVD、FID 和用户调查方面取得了 state-of-the-art 的表现,尤其在对象运动控制方面超过了以前的方法。

站长之家(ChinaZ.com)3月13日 消息:快手科技联合浙江大学、新加坡国立大学表演实验室研究团队提出了一种名为 DragAnything 的新方法,通过实体表示实现了对任何物体的运动控制。

DragAnything可以实现用户轨迹交互,并具有SAM功能。包括可以精确控制物体的运动,生成高质量视频,用户只需在交互过程中绘制一条轨迹。另外DragAnything可实现对前景、背景和相机等不同元素的多样化运动控制。

image.png

研究团队通过分析发现,DragNUWA 的像素运动轨迹并不能很好地代表物体的整体运动,因为单个点无法表示整个实体。此外,他们还观察到,在 DragNUWA 合成的视频中,距离拖动点较近的像素展示了更大的运动,这并不符合他们对物体整体运动的期望。因此,他们提出了 DragAnything 方法,通过实体表示实现了对整个物体的运动控制,解决了这些问题。

与现有的运动控制技术相比,DragAnything 有几个显著的优势:

首先,基于轨迹的操作方式对用户更友好,尤其是在获取其他辅助信号(如遮罩、深度图等)较为繁琐时。用户只需在互动中绘制一条线(即轨迹)即可。

其次,DragAnything实体识别技术能够处理任何对象,这意味着它可以控制包括背景在内的各种实体的运动。

最后,这种实体识别技术还可以同时对多个对象实现不同的运动控制。

大量实验表明,该技术在 FVD、FID 和用户体验研究方面均达到了行业领先水平,特别是在对象运动控制方面,该方法比之前的技术(例如 DragNUWA)在人类评估中提高了26%。

image.png

DragAnything 方法在视频生成领域取得了显著进展,为实现对任何物体的精确运动控制提供了新的思路和方法。

产品入口:https://top.aibase.com/tool/draganything

举报

  • 相关推荐
  • 科普 | 读懂HBM和DRAM,才懂AI算力未来

    在AI算力需求激增的背景下,存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术:SRAM凭借高速读写特性在CPU缓存中不可替代;DRAM作为数字世界的“主内存”,在容量与速度间实现平衡;HBM则通过3D堆叠架构革命性提升带宽,突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长,预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破,并开始布局HBM技术,正通过持续技术积累提升在全球半导体生态中的地位。

  • 短视频加速跑入AI时代

    「现在是西天取经的第996天,刚把师父从妖怪嘴里救出来,师父身上都还是热乎的,我们就马不停蹄开始出发了。」在抖音,都能看到《西游记》里师徒四人的取经vlog了。 采访高考完刚出考场的爱因斯坦、孟德尔、门捷列夫;慈溪逛颐和园Vlog、大禹治水现场直播,各种AI生成的视频成为网友「玩梗搞抽象」的核心生产力。 尽管在专业影视

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • 逗哥配音团队:以硬核技术铺就AI创作未来,重塑短视频创作生态

    逗哥配音平台凭借AI语音技术革新,为短视频创作者提供全方位赋能。平台集成上千款覆盖多年龄风格的真人声音资源,支持多语言合成,具备媲美真人的情感表达能力。其核心功能包括AI角色分配、5秒极速克隆及20项精细调节工具,结合去水印、字幕生成等实用功能,实现一站式创作。已获超百位大V推荐,用户量破千万,累计播放量达十万亿级,显著降低创作门槛,助力各领域内容生产。团队将持续优化技术,拓展功能生态。

  • AI排名查询工具推荐:如何查询竞争对手在AI回答中的曝光

    AI搜索时代品牌面临新挑战:用户直接询问AI工具推荐,若品牌未被提及将流失流量。数据显示,2024年58.5%的谷歌搜索为零点击,ChatGPT日均查询超百亿次。AI推荐高度集中,平均每次仅引用2-7个品牌。建议使用专业GEO监控工具(如AIBase)追踪主流AI平台曝光情况,及时优化内容策略。核心逻辑已从“让用户搜到你”转变为“让AI推荐你”。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • VITA平台赋能AI办公,沸蛇AI语音鼠标提升办公效率

    云决科技推出VITA一站式AI办公平台,结合自研AI语音鼠标,通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型,用户无需切换工具,语音即可调用文字处理、数据分析、创意设计等多元功能,实现会议纪要生成、PPT自动制作、视频一键合成等操作,节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案,整合100多个AI应用场景和200多种模板,持续优化产品功能,致力于成为职场人士提升效率的智能助手。

  • AI搜索优化工具推荐:产品描述如何写才容易被AI引用

    通过测试发现,优化产品描述能显著提升AI推荐排名。关键技巧包括:开篇明确产品类型及用途,避免模糊表述;用具体数据替代空泛描述,如“被10万家企业使用”;突出差异化功能,比如“支持离线编辑+双向链接”。建议使用AIBase等工具监测曝光数据,通过持续优化循环,曝光率可提升20-30%。在AI搜索时代,产品描述需为算法优化,写清楚、写具体、写出差异。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

今日大家都在搜的词: