首页 > 业界 > 关键词  > StableDrag最新资讯  > 正文

图片编辑技术StableDrag发布 拖动锚点即可编辑图像同时保持高质量

2024-03-11 09:46 · 稿源:站长之家

站长之家(ChinaZ.com)3月11日 消息:还记得DragGAN吗?这是一种可以拖动锚点进行图像编辑的技术,但当时代码发布后,由于生成速度慢,且不能自定义外部图片,逐渐被人们淡忘。

但现在,一种新的技术StableDrag出现了,它是基于Diffusion模型的,也能完成类似的拖动锚点编辑图片的功能。如果它的实际效果真的如演示的那样,那图片编辑将变得非常方便。

image.png

项目地址:https://top.aibase.com/tool/stabledrag

自从DragGAN出现以来,基于点的图像编辑引起了显著的关注。最近,DragDiffusion通过将这种拖动技术适配到扩散模型中,进一步推进了生成质量。然而,尽管取得了巨大的成功,但这种拖动方案存在两个主要缺点:不准确的点跟踪和不完整的运动监督,这可能导致拖动效果不理想。

为了解决这些问题,我们设计了一种判别式点跟踪方法和一种基于置信度的潜在增强策略,构建了一个稳定和精确的基于拖动的编辑框架,称为StableDrag。其中,判别式点跟踪方法允许我们精确定位更新的控制点,从而提高长距离操作的稳定性;而基于置信度的潜在增强策略则负责确保优化后的潜在表示在所有操作步骤中都尽可能保持高质量。

得益于这些独特的设计,我们实现了两种类型的图像编辑模型:StableDrag-GAN和StableDrag-Diff。通过在DragBench上进行广泛的定性实验和定量评估,证明了这两种模型能够实现更稳定的拖动性能。

举报

  • 相关推荐
  • 科杰科技位列赛迪数据智能领导者象限,打造Data&AI数据基础设施新范式

    赛迪顾问发布《2025中国数据智能市场研究报告》,指出在AI技术突破背景下,数据与智能双向赋能趋势显著。报告显示,2024年中国数据智能市场规模达2586亿元,同比增长43.2%,Data&AI一体化融合成为主流。科杰科技凭借在AI原生数据基础设施领域的全栈自研能力、关键行业深度落地成果及前瞻性实践,位列“领导者象限”。报告强调,新一代数据智能平台正朝着Data&AI一体化方向演进,科杰科技打造的KeenData Lakehouse平台,通过“可信+智能+系统”能力推进“Data&AI”新基建,支撑大型组织从数据驱动迈向智能驱动。

  • 火山引擎分享Data Agent评测体系,提出“评估驱动开发”新范式

    字节跳动数据平台在AICon大会上分享了其Data Agent自动化评测技术。面对大模型在数据行业应用广泛但评估标准不一的挑战,团队提出覆盖技术选型、研发迭代至业务验证的“三层评测框架”,并倡导以“评估驱动开发”新范式推动大模型在数据分析等领域的深度赋能。针对Text-to-SQL等核心任务,团队创新采用基于“语义等价”的自动化评测方法,通过Apache Calcite将SQL转换为抽象语法树,结合图匹配网络计算逻辑相似度,显著提升评估可靠性。未来自动化评测将更注重线上线下一致性、多模态能力覆盖及与模型训练的深度结合,推动大模型应用更精准高效地创造业务价值。

  • AI日报:可灵Avatar 2.0 上线;谷歌推出Gemini 3 Deep Think模式;阿里云析言 XiYan-SQL 强势夺冠

    本期AI日报聚焦多项AI技术突破:Kling AI Avatar 2.0上线,实现数字人表情动作智能生成;谷歌推出Gemini 3 Deep Think模式,显著提升AI推理能力;微软发布轻量级实时语音模型VibeVoice 0.5B;OpenAI最强编码模型GPT-5.1-CodexMax全面接入API;阿里云“析言 XiYan-SQL”在SQL诊断评测中夺冠。此外,豆包助手调整AI操作能力,谷歌将展示Android XR平台更新。

  • 广告收入激增,B站尝到了AI的甜头?

    ​B站终于在商业化的长跑中尝到了甜头。 2025年Q3财报显示,B站总营收为76.9亿元人民币,同比增长5%;调整后净利润为7.9亿元,同比大幅增长233%,单季盈利创新高。 其中,广告业务实现23%的同比激增。但这,也将B站“社区初心与商业变现”的老难题推至新的风口浪尖。

  • 汉鑫科技与IBM落地“AI深耕计划”,赋能中国企业“AI+出海”

    山东汉鑫科技与IBM在烟台合作落地“AI深耕计划”,旨在为中国企业智能化转型和全球化运营提供安全、灵活、定制化的企业级技术方案和咨询服务。双方在四个月内完成从可行性评估到客户项目落地的全过程,并在2025年山东省绿色低碳高质量发展大会期间举行签约仪式。此前,双方已共同发布“HiMax+制造业AI+企业资产管理解决方案”,结合IBM Maximo平台和人工智能技术,以及汉鑫的行业经验,实现设备全生命周期管理、产品质量智能检测等复杂场景中的实时预警和预测性维护。未来,双方将聚焦企业智能化转型的全价值链打通,以“AI赋能+场景落地”的框架共创解决方案,助力烟台打造智能经济产业新生态,加速实现从“数字经济”到“智能经济”的跃迁。

  • 云决VITA品牌全景图:沸蛇AI语音鼠标智能硬件+办公生态

    云决科技推出VITA一站式AI办公平台及配套沸鼠AI语音鼠标,解决现代职场效率痛点。平台整合豆包、DeepSeek等大模型,提供文档生成、多语言翻译、智能会议纪要等功能;AI鼠标配备专属按键,支持语音输入实时转文字及一键生成PPT/视频。该组合覆盖行政、教育、外贸等多行业场景,可节省80%工作时间,通过软硬件协同重构智能办公流程,推动企业数字化转型。

  • 苹果19年老将跳槽!iOS 26液态玻璃创造者被Meta挖走

    苹果公司用户界面设计灵魂人物、任职19年的资深高管Alan Dye正式宣布将于12月31日加入Meta,出任Reality Labs首席设计官。 作为iOS 26液态玻璃”视觉体系、Vision Pro交互界面及iPhone X全面屏体验的核心缔造者,他的出走被视为苹果自Jony Ive离任后最重大的设计人才流失。 据悉,Dye自2015年起执掌苹果人机界面(HCI)团队,主导了iOS、macOS、watchOS及visionOS近十年来的所有重大视觉革新�

  • AI日报:Kling 2.6将发布;千问APP推学习大模型;Z-Image-Turbo-Fun-Controlnet-Union 开源

    本期AI日报聚焦多领域AI进展:Kling 2.6发布,支持音频同步生成,AI视频进入有声时代;千问APP推出学习大模型,提升拍照答疑与作业批改能力;阿里通义实验室开源图像生成模型,实现精准控制;豆包手机助手遭遇微信登录异常,凸显生态兼容挑战;米哈游推出带猫语特色的AI聊天模型AnuNeko;亚马逊云科技发布三款新型AI智能体,其中Kiro可自主编程数日;IDC报告预测具身智能�

  • OpenTenBase 部署规模超50万,开源数据库加速拥抱AI时代

    在2025开放原子开发者大会上,OpenTenBase开源社区宣布其数据库实例规模突破50万,成为国内增长最快的开源数据库之一。社区发布中文名“开源腾贝”,并接收腾讯云捐赠的JDBC驱动等生态成果。新版本OpenTenBase 5.0和TXSQL 8.0.30正式发布,性能提升50%,支持Oracle/PG双模式隔离,增强企业级能力。该数据库在金融、政务等高要求场景中表现稳健,生态建设凝聚产业与教育机构力量,推动技术迭代与人才培养,形成良性发展格局。

  • 只有红魔还在做24+1TB 姜超:成本暴增 友商一台都没有

    红魔游戏手机产品总经理姜超表示,存储成本暴增,24 1TB友商是一台都没有,我们还在全力搞,哪怕不多,也是尽力了。 据悉,10月份发布的红魔11 Pro 最高提供24GB 1TB版本,定价是7699元。因内存芯片涨价,大小容量存储芯片进入供应紧张态势,产业链各方都处于找货、备货”的状态,所以红魔11 Pro 目前处于缺货状态。 姜超表示,几乎没有厂商用到24 1TB这个配置,一

今日大家都在搜的词: