首页 > 业界 > 关键词  > AI图像生成器最新资讯  > 正文

StableDrag:简易点击编辑器可以轻松调整蒙娜丽莎脸部表情

2024-04-07 17:33 · 稿源:站长之家

划重点:

🔍 许多 AI 图像生成器已经提供了一个强大的工具,通过文本进行图像内容修改,称为修补。

🎨 基于点的编辑使得调整变得更加容易。

🖼️ 稳定拖拽方法在移动元素到新位置时能够保持正确的透视效果

站长之家(ChinaZ.com)4月7日 消息:南京大学和腾讯的研究人员开发了一种名为 StableDrag 的新型基于 AI 的图像编辑方法,允许元素轻松移动到新位置,并保持正确的透视,根据他们的论文。

image.png

该方法基于近期 AI 图像编辑的进展,如 FreeDrag、DragDiffusion 和 Drag-GAN,并在基准测试中取得了显著更好的结果。一个例子是通过将她的鼻子稍微向右移动来改变 “蒙娜丽莎” 的观看方向。输入图像与源点(红色)和目标点(蓝色)显示在左侧,DragDiffusion 的结果在中间,StableDrag-Diff 的结果在右侧。

image.png

这个工具在照片、插图和其他 AI 生成的图像上表现良好,对于人脸和主题(如汽车、风景和动物)也同样适用。关键创新在于一种点跟踪方法,可以精确定位更新的目标点,以及一种基于置信度的策略,以在每个步骤保持高图像质量,研究人员解释说。置信度值评估编辑质量,如果下降得太低,则恢复到原始图像特征,保留源材料而不限制编辑选项。

image.png

虽然 AI 图像生成从文本方面已经迅速发展,使高度逼真的照片成为可能,但与之相比,图像操纵仍在追赶。一些 AI 模型提供修补功能,以文本输入改变选定区域,但 StableDrag 的基于点的编辑承诺更精确。研究人员表示他们将很快开源代码。

苹果正在采用不同的操纵方法,MGIE 使用文本提示添加、删除或更改对象,而无需选择特定区域。

产品入口:https://top.aibase.com/tool/stabledrag

举报

  • 相关推荐
  • 微算法科技(NASDAQ: MLGO)研发区块链可逆图像隐藏算法,提高信息隐藏完整性

    数字时代的信息安全需求催生了图像隐藏技术的持续演进。传统算法在密钥管理、抗攻击能力和认证机制方面存在固有缺陷,难以满足医疗、金融等领域的严苛安全要求。区块链技术的分布式账本特性与智能合约机制,为构建可信认证体系提供了新路径。微算法科技(NASDAQ: MLGO)研发区块链可逆图像隐藏算法(Blockchain-based Reversible Image Steganography Algorithm,BRISA),通过融合混沌加�

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • 微软发布AI截图工具,截图一键转PPT

    微软电脑管家推出全新“智能圈选”功能,通过AI技术实现截图内容的智能识别与重构。用户只需圈选截图区域,即可一键完成文字提取、多语言翻译及PPT转换等操作,大幅提升办公和学习效率。该功能支持100多种语言,保留原始格式,并能智能修复遮挡内容,彻底改变了传统截图处理方式。

  • 都是做AI应用,为什么「美图」能持续让用户付费

    这是《窄播Weekly》的第65期,本期我们关注的商业动态是:美图抓住AI带来的战略机遇,让付费订阅收入实现了连续增长,超过广告业务成为主要营收支柱。 美团在8月18日发布的最新一份财报显示,其2025年上半年总收入为18亿元,经调整归母净利润为4.7亿元,同比增长71.3%。其中,以付费订阅为主的影像与设计产品业务收入达到13.5亿元,同比增长45.2%,占总收入的74%。 这背后是

  • 阿里Wan2.2-S2V正式发布:一张图+一段音频 即可生成人物动态视频

    今晚,阿里云正式发布全新多模态视频生成模型通义万相Wan2.2-S2V,并宣布开源。 Wan2.2-S2V极大地简化了视频制作过程,仅需提供一张静态图片和一段音频,模型便能生成面部表情自然、口型与音频高度一致、肢体动作流畅丝滑的电影级数字人视频。 支持分钟级长视频稳定生成,不止嘴动,手势、表情、姿态都能动。

  • 400亿美图,靠AI重生了

    今年以来股价暴涨超255%,市值重回400多亿,美图(1357.HK)这家老牌影像工具公司,在被资本市场遗忘多年后,正以一种极为凶猛的姿态重返牌桌。 在AIGC(生成式人工智能)千帆竞发、百模大战仍在烧钱换未来的混沌格局中,美图是将滚烫的AI概念,真正熬成了一碗利润浓汤的企业。半年净赚近4个亿、付费用户突破1500万的业绩,无疑证明它饮到了这波AI应用大爆发的“头啖汤

  • 可灵2.1最强首尾帧上线 生成效果提升235%

    8月22日,可灵AI推出基于2.1模型的首尾帧功能,通过端到端多模态语义推理升级,视频生成效果提升235%。核心突破包括解决转场难题、强化视觉冲击、支持专业运镜及创意营销。测试显示,在人物动态衔接、风格切换及复杂镜头调度上表现突出,显著优于Midjourney等竞品,适用于广告、影视等创意制作场景,巩固了其在AI视频生成领域的领先地位。

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • 曝iPhone 18相机巨变:首发三星全新图像传感器

    据媒体报道,三星在得克萨斯州的一家工厂为即将推出的iPhone生产下一代图像传感器芯片,这标志着三星将会打破索尼在果链一家独大的局面,是苹果历史上的一次重大转变。 爆料称这颗芯片是三层堆叠图像传感器,通过垂直堆叠多个传感器层,能实现更高的像素密度和更出色的暗光性能,堆叠传感器架构还能提高读取速度、降低功耗并提升动态范围,这种制造工艺尚未实现

  • 免费使用!腾讯地图已接入DeepSeek-V3.1

    DeepSeek V3.1于2025年8月21日发布并开源,腾讯地图率先完成接入。新版AI助手“AI叮当”在三大核心能力显著提升:思考效率更高,响应更快;上下文理解更强,支持多轮连贯对话;智能体调用更精准,尤其在中文网页理解和跨领域搜索方面表现突出。依托升级,AI叮当可提供个性化行程规划、周边推荐及景点知识问答等智能出行服务,让导航升级为全程智能生活陪伴。

今日大家都在搜的词:

热文

  • 3 天
  • 7天