首页 > 业界 > 关键词  > 正文

苹果开源的图片编辑神器MGIE怎么用?MGIE下载地址在哪

2024-02-06 10:01 · 稿源:站长之家用户

几天前,库克在苹果电话会上证实,「今年晚些时候会发布生成式AI」。这一消息引起了广泛的关注,尤其在ChatGPT掀起全球热潮之后,苹果也在悄悄发力AI领域。据透露,苹果曾曝出的大模型框架Ajax、AppleGPT等AI工具让业界充满期待。在即将举办的WWDC上,苹果预计将宣布将各种AI能力整合到iOS18、iPadOS18等软件产品中。

然而,在这之前,iPhone用户已经可以提前体验到AI超能力!只需动动嘴,就可以在短短10秒内完成照片编辑,让照片中的哭脸变成笑脸、照片提亮、移除背景人物等。这项神奇的技术背后是由一个基于自然语言修改图片的新模型——MGIE加持,由UCSB和苹果全华人团队共同完成。(MGIE项目下载地址见文末)

image.png

具体来说,通过多模态模型,用户可以用简短的话语实现出色的图像编辑能力。这项技术已经在今天正式开源,为用户带来了前所未有的编辑体验。

根据最新研究,多模态大模型(MLLM)能够自然地将图片作为输入,并提供视觉感知响应,展现出强大的能力。MGIE作为MLLM的应用,结合扩散模型,可以通过给定的指令对输入图像进行编辑,实现预期的目标。

image.png

与其他类似模型相比,MGIE在处理模糊的人类指令方面表现出色,能够准确理解并执行编辑任务。研究人员使用了IPr2Pr作为预训练数据集,其中包含了大量的指令和图像数据,以进行模型的训练和评估。实验结果表明,MGIE在各种编辑任务中取得了显著的成绩,包括Photoshop风格的修改、全局照片优化和局部对象修改。

通过学习基于指令的图像编辑,研究人员发现,MGIE可以根据明确的指导执行准确的编辑任务,从而增强了图像编辑的效果。在零样本和微调场景中,MLLM引导图像编辑都取得了巨大的改进。

研究人员还探索了不同的架构来使用表达指令,结果显示具有关键视觉感知的表达指令始终具有优势。综合来看,MGIE在图像编辑领域展现出了强大的潜力,并为用户提供了更加直观、高效的编辑方式。随着这一技术的不断完善和推广,相信将会给用户带来更多惊喜和便利。

剩余10%的图文内容打赏作者后可查看

举报

  • 相关推荐
  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 原来微信过期图片是可以找回的上热搜 腾讯员工否认

    日前,词条“原来微信过期图片是可以找回的”登上微博热搜,引发众多网友热议。在该词条下,有网友发布“教程”,详细讲解如何找回微信过期图片,这一内容迅速吸引了大量关注。 然而,微信员工“客村小蒋”转发该“教程”并作出回应,直言“没有一处是对的”,明确指出该做法行不通。同时,“客村小蒋”还针对网络上

  • Adobe 发布 Firefly 系列产品,涵盖图片、视频、矢量等

    Firefly 通过在单一空间内提供图像、视频、音频和矢量生成功能,将为基于人工智能的创意制作体验带来革新……

  • 微信加好友能加图片备注了 目前还在灰度测试中

    微信近日测试"图片备注"新功能,用户添加好友后若对方发送图片,可直接点击图片上方按钮将图片保存至该好友的备注信息中。该功能简化了为好友添加个性化备注的流程,特别适合快速记录初次见面的印象或特定场景照片标识。目前该功能已进入大规模测试阶段,不少用户反馈已在微信界面看到这一新增选项。这体现了微信持续优化用户体验、探索社交互动新方式的努力。

  • iPhone 17 air 配置参数图片一览,你还有补充的吗?

    虽然苹果还没正式介绍 iPhone 17 Air,但与之相关的传闻早已甚嚣尘上。下面这些是我们目前已获知的……

  • 腾讯混元T1-Vision上线元宝:一张图片就能分析出产品研发成本

    除此之外,腾讯还介绍了元宝目前可以识别花的品种;可以提示在围棋赛局中下一步如何走;同时,给它一张定期存款利率表,还会帮你出谋划策。

  • 索尼发布ULT FIELD 3、ULT FIELD 5便捷式蓝牙音箱及WF-C710N真无线耳机 拓展多元场景音频产品矩阵

    索尼中国发布三款音频新品:ULT FIELD系列便携蓝牙音箱(ULT FIELD 3和5)及真无线降噪耳机WF-C710N。新品延续"为音乐而生"理念,ULT FIELD系列主打"广阔声场×便携设计×硬核防护",采用X-Balanced扬声器单元和双单元配置,支持ULT低音增强模式;WF-C710N配备双反馈麦克风+AI智能降噪,20级环境声调节,DSEE音质提升技术,续航达40小时。三款产品均支持智能声场优化,ULT FIELD 5新增氛围灯效,具备IP67防护等级。价格方面:ULT FIELD 3售价1,399元(5月7日发售),ULT FIELD 5售价2,299元(5月13日发售),WF-C710N冰透蓝款899元(5月7日预售)。

  • 理想自研星环OS正式开源!操作系统代码已开放下载

    理想汽车4月28日宣布自研"星环OS"操作系统正式开源,成为全球首个实现整车级操作系统全面开源的车企。该系统代码已通过Gitee平台开放下载,采用Apache License V2.0开源协议,覆盖智能车控、智能驾驶、通信中间件、信息安全四大核心模块。该系统不同于车载屏幕系统,而是整车全链路操作系统,包括车辆控制等核心功能。研发始于2021年,投入200名研发人员和10亿元人民币。系统采用资源集中与共享架构,支持英飞凌、地平线等主流车规芯片,芯片适配验证时间比传统闭源系统缩短80%。在性能方面,AI算力虚拟化损耗降低80%,传感器访问时延降低90%,存储资源占用减少30%,响应速度比AUTOSAR提升1倍。安全性能方面,120km/h高速状态下AEB刹停距离缩短7米。

  • 隐私沙盒成弃儿:谷歌放弃Chrome淘汰第三方Cookie计划!

    快科技4月23日消息,谷歌隐私沙盒副总裁安东尼查韦斯(Anthony Chavez)表示,公司决定维持目前在Chrome中为用户提供第三方Cookie选择的现有方式”。谷歌的隐私沙盒项目自2019年提出以来,一直备受争议,该项目旨在淘汰第三方Cookie,通过分组兴趣偏好继续向广告网络提供数据,以在减少用户隐私泄露的同时,让广告网络能够继续推送定向广告。不过这一计划遭到了广告商和隐私倡导者的双重批评,广告商担心该计划会影响其广告投放效果,而隐私倡导者则认为谷歌的替代方案仍然存在隐私风险。2024年4月,谷歌宣布推迟淘汰第三方Cookie的计划,

  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。