首页 > 业界 > 关键词  > 正文

苹果开源的图片编辑神器MGIE怎么用?MGIE下载地址在哪

2024-02-06 10:01 · 稿源:站长之家用户

几天前,库克在苹果电话会上证实,「今年晚些时候会发布生成式AI」。这一消息引起了广泛的关注,尤其在ChatGPT掀起全球热潮之后,苹果也在悄悄发力AI领域。据透露,苹果曾曝出的大模型框架Ajax、AppleGPT等AI工具让业界充满期待。在即将举办的WWDC上,苹果预计将宣布将各种AI能力整合到iOS18、iPadOS18等软件产品中。

然而,在这之前,iPhone用户已经可以提前体验到AI超能力!只需动动嘴,就可以在短短10秒内完成照片编辑,让照片中的哭脸变成笑脸、照片提亮、移除背景人物等。这项神奇的技术背后是由一个基于自然语言修改图片的新模型——MGIE加持,由UCSB和苹果全华人团队共同完成。(MGIE项目下载地址见文末)

image.png

具体来说,通过多模态模型,用户可以用简短的话语实现出色的图像编辑能力。这项技术已经在今天正式开源,为用户带来了前所未有的编辑体验。

根据最新研究,多模态大模型(MLLM)能够自然地将图片作为输入,并提供视觉感知响应,展现出强大的能力。MGIE作为MLLM的应用,结合扩散模型,可以通过给定的指令对输入图像进行编辑,实现预期的目标。

image.png

与其他类似模型相比,MGIE在处理模糊的人类指令方面表现出色,能够准确理解并执行编辑任务。研究人员使用了IPr2Pr作为预训练数据集,其中包含了大量的指令和图像数据,以进行模型的训练和评估。实验结果表明,MGIE在各种编辑任务中取得了显著的成绩,包括Photoshop风格的修改、全局照片优化和局部对象修改。

通过学习基于指令的图像编辑,研究人员发现,MGIE可以根据明确的指导执行准确的编辑任务,从而增强了图像编辑的效果。在零样本和微调场景中,MLLM引导图像编辑都取得了巨大的改进。

研究人员还探索了不同的架构来使用表达指令,结果显示具有关键视觉感知的表达指令始终具有优势。综合来看,MGIE在图像编辑领域展现出了强大的潜力,并为用户提供了更加直观、高效的编辑方式。随着这一技术的不断完善和推广,相信将会给用户带来更多惊喜和便利。

剩余10%的图文内容打赏作者后可查看

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词:

热文

  • 3 天
  • 7天