Meta 推出基于 token 的全新 AI 图像生成模型 CM3leon：更高效先进

2023-07-17 09:55 · 稿源：站长之家

站长之家(ChinaZ.com) 7月17日消息:Meta 正在继续推进对新形式生成式人工智能模型的研究，并公布了最新成果，名为 CM3leon（发音类似于「chameleon（变色龙）」）。

355350269_735396441693973_7081320402844920765_n (1).jpg

图片来自Meta

CM3leon 是一个用于文本到图像创建和图像到文本创建的多模态基础模型，对于自动生成图像标题非常有用。

人工智能生成的图像在当前已经不是新概念，广泛可用的工具如 Stable Diffusion、DALL-E 和 Midjourney 已经取得了很大成功。

新鲜的是 Meta 正在使用构建 CM3leon 的技术以及 Meta 声称该基础模型能够实现的性能。

当前文本到图像生成技术主要依赖 diffusion 模型（Stable Diffusion 的名称源自此）来创建图像。CM3leon 则采用了不同的方法：基于 token 的自回归模型。

Meta 的研究人员在一篇名为《Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning》的研究论文中写道：「近年来，由于性能强大且相对计算成本较低，diffusion 模型在图像生成工作中占据主导地位。相比之下，众所周知基于 token 的自回归模型也能产生出色的结果，尤其在全局图像连贯性方面更好，但训练和推理的成本要高得多。」

Meta 的研究人员已经能够通过 CM3leon 实际演示基于 token 的自回归模型实际上可以比基于 diffusion 模型的方法更高效。

Meta 的研究人员在一篇博客文章中写道：「尽管使用的计算资源比之前基于 Transformer 的方法少了五倍，CM3leon 在文本到图像生成方面实现了最先进的性能。」

CM3leon 的基本工作原理在某种程度上与现有的文本生成模型类似。

Meta 的研究人员首先进行了一个检索增强的预训练阶段。与仅从互联网上收集公开可用的图像不同，这种方法已经给基于 diffusion 模型的模型带来了一些法律挑战，Meta 选择了一条不同的道路。

Meta 的研究论文指出：「在文本到图像生成领域，图像数据来源的道德影响已经引发了广泛的讨论。在本研究中，我们只使用 Shutterstock 上的经过授权的图像。因此，我们可以避免与图像所有权和归属相关的担忧，同时不会牺牲性能。」

在预训练之后，CM3leon 模型经过一阶段有监督微调（SFT），Meta 的研究人员声称这种方法产生了高度优化的结果，无论是资源利用还是图像质量。SFT 是 OpenAI 用于训练 ChatGPT 的一种方法。Meta 在研究论文中指出，SFT 用于训练模型理解复杂提示，在生成任务中非常有用。

论文中指出：「我们发现，指导调整显著提高了多模态模型在图像标题生成、视觉问答、基于文本的编辑和条件图像生成等各种任务中的性能。」

通过查看 Meta 在关于 CM3leon 的博客文章中分享的生成图像样本集，结果令人印象深刻，清楚地显示了模型理解复杂的多阶段提示，从而生成了分辨率极高的图像。

目前，CM3leon 仍然是一个研究项目，尚不清楚 Meta 是否会在其平台的一个服务中公开提供这项技术。鉴于它的强大性能和更高的生成效率，CM3leon 及其生成式人工智能方法有可能超越研究阶段最终得到应用。

（举报）

Meta 推出基于 token 的全新 AI 图像生成模型 CM3leon：更高效先进

AI新模型KOSMOS-G：实现零样本高保真图像生成

Meta悄然发布Llama 2 Long AI模型

SyncDreamer:从单视图图像生成多视图一致图像以实现3D重建

Open AI推出DALL・E3图像生成模型：理解能力提升图片细节更丰富

T2I扩散模型PIXART-α：图像生成质量媲美Stable Diffusion

荐Meta开源数字水印Stable Signature，极大增强生成式AI安全

Meta 斥巨资打造明星AI数字人

Meta AI提出视频抠图新方法OmnimatteRF:结合动态2D前景图层和3D背景模型

蓝湖 Sketch 插件全新改版，更高效，更便捷

Getty推出人工智能图像生成器

今日大家都在搜的词：

热文

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

一加Ace 6开启预售：售价2599元起

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

鸿蒙智行：全新问界M7上市36天交付破20000台

20周年款iPhone将配自研相机并搭载自研定制LOFIC传感器

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

网信办宣布开展“整治网络直播打赏乱象”专项行动

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

华为MatePad Pro流金典藏版开卖：售价7799元

站长商机