首页 > 业界 > 关键词  > StableDrag最新资讯  > 正文

图片编辑技术StableDrag发布 拖动锚点即可编辑图像同时保持高质量

2024-03-11 09:46 · 稿源:站长之家

站长之家(ChinaZ.com)3月11日 消息:还记得DragGAN吗?这是一种可以拖动锚点进行图像编辑的技术,但当时代码发布后,由于生成速度慢,且不能自定义外部图片,逐渐被人们淡忘。

但现在,一种新的技术StableDrag出现了,它是基于Diffusion模型的,也能完成类似的拖动锚点编辑图片的功能。如果它的实际效果真的如演示的那样,那图片编辑将变得非常方便。

image.png

项目地址:https://top.aibase.com/tool/stabledrag

自从DragGAN出现以来,基于点的图像编辑引起了显著的关注。最近,DragDiffusion通过将这种拖动技术适配到扩散模型中,进一步推进了生成质量。然而,尽管取得了巨大的成功,但这种拖动方案存在两个主要缺点:不准确的点跟踪和不完整的运动监督,这可能导致拖动效果不理想。

为了解决这些问题,我们设计了一种判别式点跟踪方法和一种基于置信度的潜在增强策略,构建了一个稳定和精确的基于拖动的编辑框架,称为StableDrag。其中,判别式点跟踪方法允许我们精确定位更新的控制点,从而提高长距离操作的稳定性;而基于置信度的潜在增强策略则负责确保优化后的潜在表示在所有操作步骤中都尽可能保持高质量。

得益于这些独特的设计,我们实现了两种类型的图像编辑模型:StableDrag-GAN和StableDrag-Diff。通过在DragBench上进行广泛的定性实验和定量评估,证明了这两种模型能够实现更稳定的拖动性能。

举报

  • 相关推荐
  • TabTab 登顶模力工场 AI 应用榜榜首, 把 AI 数据分析师装进口袋,关键结论更快抵达!

    TabTab是一款全链路AI数据分析助手,核心功能包括多源数据连接(支持文档、数据库、电商平台等)、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互,降低分析门槛,让非技术人员也能快速完成客户洞察、销售业绩等分析,显著提升效率。产品定位中立,致力于构建多元化AI效率提升生态。

  • 科普 | 读懂HBM和DRAM,才懂AI算力未来

    在AI算力需求激增的背景下,存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术:SRAM凭借高速读写特性在CPU缓存中不可替代;DRAM作为数字世界的“主内存”,在容量与速度间实现平衡;HBM则通过3D堆叠架构革命性提升带宽,突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长,预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破,并开始布局HBM技术,正通过持续技术积累提升在全球半导体生态中的地位。

  • AI日报:xAI推出Grok 4.1;OceanBase发布首款AI数据库seekdb;Kimi K2成功接入Perplexity

    本期AI日报聚焦多项技术突破:蚂蚁集团"灵光"AI助手实现30秒生成可编辑应用;xAI推出免费Grok 4.1模型显著提升质量与速度;Poe推出200人群聊功能支持多模型协作;OceanBase发布首款AI数据库seekdb实现混合搜索;国产模型Kimi K2接入Perplexity展现国际竞争力;谷歌DeepMind推出通用智能体SIMA2在3D游戏中任务完成率达62%;ElevenLabs升级为一站式内容生成平台;昆仑万维推出轻量级多模态智能体Skywork R1V4-Lite,用户拍照即可自动完成任务。

  • 苹果发布iOS 26.2 beta 2:动效更流畅、继续适配液态玻璃

    苹果今天凌晨发布了iOS 26.2 beta 2,依然在适配更多的液态玻璃效果,并且还优化了动画效果,更流畅丝滑了。 以下是本次主要更新内容: 游戏库新增排序与筛选功能,支持手柄导航,且在播放过程中可实时更新分数。 新版还强化了社交互动功能,用户可以直接从游戏”应用中邀请朋友进行挑战或实时多人游戏,当朋友打破你的高分纪录时,系统还会发送通知,方便你立即�

  • 软件定义汽车的质量革命:AI Agent如何终结座舱OTA的“路测噩梦”

    在“软件定义汽车”浪潮下,智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而,传统软件测试模式成本高、耗时长,难以覆盖复杂场景,易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破:需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式,测试工程师角色转向质量策略师。到2027年,超80%企业将集成AI测试工具,汽车行业2025年成为转型关键节点。

  • 文远知行斩获美国以外首张城市级L4 Robotaxi商运牌照,中东规模化布局提速

    11月10日,文远知行获阿联酋政府批准,取得全球首张城市级L4自动驾驶商业化运营牌照,可在阿布扎比开展无安全员的Robotaxi服务。这标志着其在中东实现纯无人运营落地。服务将通过Uber等平台上线,计划2026年车队扩至千台,2030年达数万台。凭借近百万公里数据与政府支持,公司将在阿布扎比实现单车盈亏平衡,并以此为起点推动全球智慧交通发展。

  • AI日报:百度发布文心5.0;可灵2.5Turbo模型上线“首尾帧”功能;微博推出 VibeThinker-1.5B

    本期AI日报聚焦多项技术突破:OpenAI推出GPT-5.1,提升对话自然度与响应速度;百度发布原生全模态大模型文心5.0,支持跨文本图像生成;微博开源VibeThinker-1.5B模型,以低成本实现高效推理;可控视频生成模型新增首尾帧控制功能;李飞飞团队推出商用3D世界生成工具Marble;东北大学开源多语言翻译模型支持60种语言;谷歌Gemini语音功能升级实现更自然交互;阿里启动“千问”项目对标ChatGPT,全面布局C端AI应用竞争。

  • 星耀南山、创见未来,「X-Day」西丽湖路演社创业之星Next Star专场燃动科创热潮

    11月15日,“X-Day”西丽湖路演社在深圳大学城举办“创业之星”Next+Star百万奖金全球赛专场,联动政府、投资、金融等多方资源,构建资本对接桥梁,助力创新项目落地南山。活动汇聚6个硬核项目,覆盖AI、生物医药等领域,展现前沿产业活力。平台通过常态化路演与赛事联动,已促成超5.3亿元股权融资及2.34亿元银行授信,持续优化区域科创生态,彰显南山“鼓励创新、支持创业”的浓厚氛围。

  • Billus AI高交会全球首发多模态大模型 以AI Agent重构创意产业文明进化路径

    2025年11月15日,Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版,依托自研生存式大模型与AI Agent技术,打破创意领域垂直局限,构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果,实现从平面图到施工图的全流程高效生成。同时,Billus AI同步打造“创意设计超级员工+产业链智能体”体系,探索生成式创意与供应链智能推荐的新商业路径,助力行业从“经验驱动”向“数据智能”跃迁。

  • OceanBase发布首款AI数据库seekdb:三行代码构建AI应用 实现百亿级多模数据混合搜索

    今日,在2025 OceanBase年度发布会上,OceanBase发布并开源了其首款AI数据库OceanBase seekdb(简称seekdb)。 开发者仅需三行代码,即可快速构建知识库、智能体等AI应用,轻松应对百亿级多模数据检索,真正实现开箱即用”的AI数据基座。 该产品支持向量、全文、标量及空间地理数据的统一混合搜索,深度融合AI推理与数据处理,并兼容Hugging Face、LangChain等30余种主流AI框架。 这一�

今日大家都在搜的词: