快手出品！DragAnything：拖动锚点精准控制视频物体和镜头运动

2024-03-13 11:42 · 稿源：站长之家

划重点:
⭐️ 快手科技联合浙江大学研究团队提出了 DragAnything 方法，利用实体表示实现了对任何物体的运动控制。
⭐️ 对比现有的运动控制方法，DragAnything 在用户友好性、对象多样性和多对象控制方面具有优势。
⭐️ 在实验中，DragAnything 在 FVD、FID 和用户调查方面取得了 state-of-the-art 的表现，尤其在对象运动控制方面超过了以前的方法。

站长之家（ChinaZ.com）3月13日消息:快手科技联合浙江大学、新加坡国立大学表演实验室研究团队提出了一种名为 DragAnything 的新方法，通过实体表示实现了对任何物体的运动控制。

DragAnything可以实现用户轨迹交互，并具有SAM功能。包括可以精确控制物体的运动，生成高质量视频，用户只需在交互过程中绘制一条轨迹。另外DragAnything可实现对前景、背景和相机等不同元素的多样化运动控制。

研究团队通过分析发现，DragNUWA 的像素运动轨迹并不能很好地代表物体的整体运动，因为单个点无法表示整个实体。此外，他们还观察到，在 DragNUWA 合成的视频中，距离拖动点较近的像素展示了更大的运动，这并不符合他们对物体整体运动的期望。因此，他们提出了 DragAnything 方法，通过实体表示实现了对整个物体的运动控制，解决了这些问题。

与现有的运动控制技术相比，DragAnything 有几个显著的优势:

首先，基于轨迹的操作方式对用户更友好，尤其是在获取其他辅助信号（如遮罩、深度图等）较为繁琐时。用户只需在互动中绘制一条线(即轨迹)即可。

其次，DragAnything实体识别技术能够处理任何对象，这意味着它可以控制包括背景在内的各种实体的运动。

最后，这种实体识别技术还可以同时对多个对象实现不同的运动控制。

大量实验表明，该技术在 FVD、FID 和用户体验研究方面均达到了行业领先水平，特别是在对象运动控制方面，该方法比之前的技术（例如 DragNUWA）在人类评估中提高了26%。

DragAnything 方法在视频生成领域取得了显著进展，为实现对任何物体的精确运动控制提供了新的思路和方法。

产品入口:https://top.aibase.com/tool/draganything

（举报）

相关推荐

关键词：

科普 | 读懂HBM和DRAM，才懂AI算力未来

在AI算力需求激增的背景下，存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术：SRAM凭借高速读写特性在CPU缓存中不可替代；DRAM作为数字世界的“主内存”，在容量与速度间实现平衡；HBM则通过3D堆叠架构革命性提升带宽，突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长，预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破，并开始布局HBM技术，正通过持续技术积累提升在全球半导体生态中的地位。

存储芯片 DRAM HBM
荐短视频加速跑入AI时代

「现在是西天取经的第996天，刚把师父从妖怪嘴里救出来，师父身上都还是热乎的，我们就马不停蹄开始出发了。」在抖音，都能看到《西游记》里师徒四人的取经vlog了。采访高考完刚出考场的爱因斯坦、孟德尔、门捷列夫;慈溪逛颐和园Vlog、大禹治水现场直播，各种AI生成的视频成为网友「玩梗搞抽象」的核心生产力。尽管在专业影视

文章搜索核心标签 AI生成
AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

今日AI领域动态：阿里夸克启动"C计划"布局对话式AI应用，剑指字节"豆包"；Anthropic推出Claude Code网页版，支持浏览器直接编码；谷歌Veo新增视频"精确编辑"功能，提升创作效率；Fish Audio升级S1语音克隆模型，10秒即可复刻真人声音；AWS美东故障影响ChatGPT等多项服务；DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈；Adobe推出AI Foundry服务，支持企业定制品牌AI模型；Anthropic发布Claude for Life Sciences，加速生命科学研究。

AI 对话式AI 阿里巴巴
Sora App的AI视频社交，给了百度们新希望

Sora2发布两周后，百度的蒸汽机AI视频模型，和谷歌Veo3.1撞了档期。两家公司选择同期发布并非有多默契，而是Sora2带来的压迫感促使它们不得不加快脚步。奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”，不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃，还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。这无疑是扔在AI视�

文章搜索核心标签 AI视频模型
逗哥配音团队：以硬核技术铺就AI创作未来，重塑短视频创作生态

逗哥配音平台凭借AI语音技术革新，为短视频创作者提供全方位赋能。平台集成上千款覆盖多年龄风格的真人声音资源，支持多语言合成，具备媲美真人的情感表达能力。其核心功能包括AI角色分配、5秒极速克隆及20项精细调节工具，结合去水印、字幕生成等实用功能，实现一站式创作。已获超百位大V推荐，用户量破千万，累计播放量达十万亿级，显著降低创作门槛，助力各领域内容生产。团队将持续优化技术，拓展功能生态。

AI配音内容创作语音合成
AI排名查询工具推荐:如何查询竞争对手在AI回答中的曝光

AI搜索时代品牌面临新挑战：用户直接询问AI工具推荐，若品牌未被提及将流失流量。数据显示，2024年58.5%的谷歌搜索为零点击，ChatGPT日均查询超百亿次。AI推荐高度集中，平均每次仅引用2-7个品牌。建议使用专业GEO监控工具（如AIBase）追踪主流AI平台曝光情况，及时优化内容策略。核心逻辑已从“让用户搜到你”转变为“让AI推荐你”。
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

云决科技推出VITA一站式AI办公平台，结合自研AI语音鼠标，通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型，用户无需切换工具，语音即可调用文字处理、数据分析、创意设计等多元功能，实现会议纪要生成、PPT自动制作、视频一键合成等操作，节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案，整合100多个AI应用场景和200多种模板，持续优化产品功能，致力于成为职场人士提升效率的智能助手。

智能办公 AI办公平台办公效率
AI搜索优化工具推荐：产品描述如何写才容易被AI引用

通过测试发现，优化产品描述能显著提升AI推荐排名。关键技巧包括：开篇明确产品类型及用途，避免模糊表述；用具体数据替代空泛描述，如“被10万家企业使用”；突出差异化功能，比如“支持离线编辑+双向链接”。建议使用AIBase等工具监测曝光数据，通过持续优化循环，曝光率可提升20-30%。在AI搜索时代，产品描述需为算法优化，写清楚、写具体、写出差异。
荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎

今日大家都在搜的词：

热文

3 天
7天

快手出品！DragAnything：拖动锚点精准控制视频物体和镜头运动

科普 | 读懂HBM和DRAM，才懂AI算力未来

荐短视频加速跑入AI时代

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

Sora App的AI视频社交，给了百度们新希望

逗哥配音团队：以硬核技术铺就AI创作未来，重塑短视频创作生态

AI排名查询工具推荐:如何查询竞争对手在AI回答中的曝光

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

AI搜索优化工具推荐：产品描述如何写才容易被AI引用

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

今日大家都在搜的词：

热文

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

DeepSeek崩了上热搜页面显示“服务器繁忙”

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

真我GT8 Pro阿斯顿马丁F1限量版将于11月10日正式开售

卢伟冰评Air手机：大胆创新但极致薄牺牲用户体验

真我GT8 Pro阿斯顿马丁F1限量版外观公布

阿里回应饿了么更名：正处于灰度测试阶段

OPPO ColorOS 16正式版推送：首批适配11款机型

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

苹果客服回应iPhone或自动拨号：设置或其他问题

vivo OriginOS 6启动公测招募：支持10款机型

魅族22月白天青配色发布：2999元起

小米随身蓝牙音箱曜石黑配色版本开售：售价299元

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

iQOO Neo11开售2小时销量超前代全天

站长商机