首页 > 业界 > 关键词  > 正文

苹果开源的图片编辑神器MGIE怎么用?MGIE下载地址在哪

2024-02-06 10:01 · 稿源:站长之家用户

几天前,库克在苹果电话会上证实,「今年晚些时候会发布生成式AI」。这一消息引起了广泛的关注,尤其在ChatGPT掀起全球热潮之后,苹果也在悄悄发力AI领域。据透露,苹果曾曝出的大模型框架Ajax、AppleGPT等AI工具让业界充满期待。在即将举办的WWDC上,苹果预计将宣布将各种AI能力整合到iOS18、iPadOS18等软件产品中。

然而,在这之前,iPhone用户已经可以提前体验到AI超能力!只需动动嘴,就可以在短短10秒内完成照片编辑,让照片中的哭脸变成笑脸、照片提亮、移除背景人物等。这项神奇的技术背后是由一个基于自然语言修改图片的新模型——MGIE加持,由UCSB和苹果全华人团队共同完成。(MGIE项目下载地址见文末)

image.png

具体来说,通过多模态模型,用户可以用简短的话语实现出色的图像编辑能力。这项技术已经在今天正式开源,为用户带来了前所未有的编辑体验。

根据最新研究,多模态大模型(MLLM)能够自然地将图片作为输入,并提供视觉感知响应,展现出强大的能力。MGIE作为MLLM的应用,结合扩散模型,可以通过给定的指令对输入图像进行编辑,实现预期的目标。

image.png

与其他类似模型相比,MGIE在处理模糊的人类指令方面表现出色,能够准确理解并执行编辑任务。研究人员使用了IPr2Pr作为预训练数据集,其中包含了大量的指令和图像数据,以进行模型的训练和评估。实验结果表明,MGIE在各种编辑任务中取得了显著的成绩,包括Photoshop风格的修改、全局照片优化和局部对象修改。

通过学习基于指令的图像编辑,研究人员发现,MGIE可以根据明确的指导执行准确的编辑任务,从而增强了图像编辑的效果。在零样本和微调场景中,MLLM引导图像编辑都取得了巨大的改进。

研究人员还探索了不同的架构来使用表达指令,结果显示具有关键视觉感知的表达指令始终具有优势。综合来看,MGIE在图像编辑领域展现出了强大的潜力,并为用户提供了更加直观、高效的编辑方式。随着这一技术的不断完善和推广,相信将会给用户带来更多惊喜和便利。

剩余10%的图文内容打赏作者后可查看

举报

  • 相关推荐
  • 即梦图片3.0又重磅更新,这可能是对普通人最有用的一次。

    MD,这次连设计师的参考图也一键干碎了。。。 我测了整整一夜,现在是凌晨4点21,我还在写这篇文章。 我人真的傻了,我真的不愿意用一些什么很夸张的词语,但是即梦的绘图,每一次,带给我的震撼,都会觉得,我这么多年的设计师生涯,在AI的进化速度面前,不值一提。 什么样的言语,都无法比拟直接看图来的直接,直接给你们看效果。 这是一张,很好看的北京的�

  • 朋友圈评论可以发表情包和图片了 客服回应:小范围内测

    近日,微信对朋友圈评论功能进行了重要更新,支持用户在评论中发表情包和图片,这一创新举措迅速引发了用户的广泛关注和讨论。据腾讯客服官方确认,微信更新至8.0. 60 版本后,朋友圈评论区将新增表情包和图片回复功能,为用户带来更加丰富的互动体验。

  • AI日报:腾讯元宝升级一句话搜索图片视频;微信支付MCP上线;谷歌在全球推出 Veo 3

    【AI日报】今日AI领域重要动态:1)腾讯元宝升级,支持一句话搜索呈现图文视频;2)微信支付MCP上线,AI与支付结合开启商业新纪元;3)谷歌Veo3视频生成模型向Pro/Ultra会员开放,新增"照片生成视频"功能;4)开源DeepSeek R1增强版推理效率提升200%;5)美图WHEE推出"一句话修图"功能;6)芯片公司Ambiq申请美国IPO,受益生成式AI需求;7)昆仑万维开源奖励模型Skywork-Reward-V2;8)Kyutai发布超低延迟开源语音合成技术;9)Figma拟以200亿美元估值登陆纽交所;10)字节跳动开源Trae-Agent智能开发工具。

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • AI日报:即梦灰测图片3.1模型;ElevenLabs推出AI语音助理11ai;百度发布多智能体协同AI IDE

    本文介绍了AI领域多项最新进展:1)即梦灰测图片3.1模型增强电影感和艺术风格;2)ElevenLabs推出语音助手11ai;3)文心快码发布多模态AI开发工具Comate AI IDE;4)苹果采用"归一化流"技术开发新型AI生图模型;5)Grok将推出整合多类型文件管理功能;6)OmniGen2开源多模态模型重塑AI应用场景;7)ScholAI革新学术研究工具;8)豆包推出可视化AI编程功能;9)饿了么推出骑手AI助手"小饿";10)张雪峰认为AI可替代部分教育工作;11)微软发布3.3亿参数小模型Mu。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • Ceph存储效能飙升20%+!忆联PCIe5.0 ESSD智能多流技术攻克“隐形损耗”

    本文介绍了忆联Ceph分布式存储方案的技术优势。该方案基于PCIe5.0 ESSD,数据吞吐效率达上一代2倍;采用智能多流技术,性能优于主流竞品3.15%;有效抑制写放大效应(WAF),优于竞品20%-32%,可延长SSD寿命20%以上。方案通过硬件层面的创新突破,为云原生环境提供兼具超低延迟与超高一致性的存储基础设施,满足企业级客户对存储系统全生命周期稳定性的严苛需求。测试数据显示,在3副本配置下,QD32时随机读IOPS达175.5万,延迟稳定在1.1毫秒内;混合读写IOPS超50万,延迟约20毫秒。智能多流技术实现1.78超低WAF值,显著提升存储效能,是构建新一代分布式存储系统的理想选择。

  • AI日报:通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线;智谱AI企业级超级助手Agent CoCo上线

    【AI日报】今日AI领域重要动态:1.通义千问3大模型全球下载量超1250万,衍生模型13万+;2.即梦图片3.0上线,AI设计进入"零门槛"时代;3.智谱AI发布企业级超级助手Agent CoCo;4.百度推出金融行业大模型"千帆慧金";5.小红书开源首个大模型dots.llm1,含1420亿参数;6.Hugging Face开源LeRobot项目,降低机器人研发门槛;7.ChatGPT语音功能升级,支持更自然对话翻译;8.Google Gemini应用下载量超ChatGPT但活跃度不足;9.轻量级文档解析模型MonkeyOCR表现优异;10.Google Veo3推出高速视频生成模式;11.Google调整AI Studio政策,限制Gemini2.5Pro免费访问。

  • 苹果官网首次支持国补 目前仅限北京收货地址及上海线下购买

    此次补贴政策针对不同品类设置了不同的补贴比例和金额上限。移动产品类可享受最高15%的补贴,单产品最高补贴金额为500元,不过商品价格需低于6000元。电脑类产品则按照最高20%的比例进行补贴,单产品最高补贴金额可达2000元。 然而,目前该补贴政策仅在北京和上海两个城市开展。北京地区的消费者在苹果官网下单时,可通过京通小程序领取补贴优惠券,在线上享受国补�

  • 2025 IEEE全球区块链大会在上海举办,趣链科技董事长受邀出席

    2025年6月20-22日,IEEE全球区块链大会在上海举行,主题为"通全球,链世界——打造可信数字未来"。趣链科技创始人李伟博士受邀出席并作主题报告,提出区块链技术正与隐私计算、人工智能等前沿技术融合,构建数据要素流通的"经脉"。趣链科技已建立覆盖数据全生命周期的产品体系,在长三角落地多个应用案例,包括打造长三角示范区和浙江省减污降碳协同增效平台。作为国际标准制定参与者,公司牵头制定超80项国际标准,未来将加快国际化布局,为全球数据治理贡献力量。