AI新模型KOSMOS-G：实现零样本高保真图像生成

2023-10-12 14:42 · 稿源：站长之家

划重点:
🔍 近期，图像生成技术取得显著进展，但从广义视觉语言输入生成图像一直是未开拓领域。
🖼️ KOSMOS-G 是一个新型模型，利用多模型LLMs解决这一问题，能够从文本描述中生成详细图像。
🌟 KOSMOS-G是首个能够根据描述生成包含多个对象的图像的模型，可用于替代CLIP，并开启更多应用领域。

站长之家（ChinaZ.com）10月12日消息:最近，图像生成技术取得了显著的进展，尤其是在从文本描述生成图像以及将文本和图像结合生成新图像方面。然而，一个尚未充分探索的领域是从广义视觉语言输入生成图像，例如从描述涉及多个对象和人物的场景生成图像。微软研究、纽约大学和滑铁卢大学的研究人员引入了KOSMOS-G，这是一种利用多模型LLMs来解决这一问题的模型。

KOSMOS-G能够从文本描述和多幅图片的复杂组合中创建详细的图像，即使它以前没有见过这些示例。它是第一个能够在描述中包含各种对象或事物的图像中生成图像的模型。KOSMOS-G可以替代CLIP，这为使用ControlNet和LoRA等其他技术开辟了新的应用可能性。

KOSMOS-G采用了一种巧妙的方法来从文本和图像生成图像。它首先通过训练多模型LLM（能够同时理解文本和图像），然后与CLIP文本编码器进行对齐(擅长理解文本)。当我们为KOSMOS-G提供包含文本和分段图像的标题时，它经过训练来创建与描述匹配并遵循说明的图像。它通过使用预训练的图像解码器并利用从图像中学到的知识来在不同情境下生成准确的图像。

KOSMOS-G能够根据说明和输入数据生成图像。它经历了三个训练阶段。在第一阶段，该模型在多模型语料库上进行了预训练。在第二阶段，通过CLIP监督，训练了一个AlignerNet来将KOSMOS-G的输出空间与U-Net的输入空间对齐。在第三阶段，KOSMOS-G通过对精心策划的数据执行构成生成任务来进行微调。在阶段1，只训练MLLM。在阶段2，带有MLLM冻结的AlignerNet进行了训练。在阶段3，AlignerNet和MLLM都进行了联合训练。图像解码器在所有阶段都保持冻结状态。

KOSMOS-G在不同设置下的零样本图像生成非常出色。它可以生成有意义、漂亮且可以根据需要进行定制的图像。它可以改变上下文、添加特定风格、进行修改并添加图像的额外细节。KOSMOS-G是第一个能够在零样本设置中实现多实体VL2I的模型。

KOSMOS-G可以轻松取代图像生成系统中的CLIP，这为以前不可能的应用领域打开了令人兴奋的新可能性。通过构建在CLIP的基础上，KOSMOS-G有望推动从基于文本生成图像转向基于文本和视觉信息的组合生成图像，为许多创新应用创造机会。

KOSMOS-G是一种能够从文本和多个图像生成详细图像的模型。它采用了一种独特的训练策略，即“在指导之前对齐”。KOSMOS-G擅长制作单个对象的图像，并是首个能够在多个对象的情况下做到这一点的模型。它还可以替代CLIP，并与ControlNet和LoRA等其他技术一起使用于新的应用。简而言之，KOSMOS-G是将图像生成塑造成一种语言的初步步骤。

论文网址:https://arxiv.org/abs/2310.02992

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Adobe图像生成AI “Firefly” 训练集中约有5%为AI图像

Adobe的图像生成AI“Firefly”以其训练集来源自AdobeStock中的图片和视频闻名。美国经济报纸彭博社报道称，Firefly的数据集实际上包含由Midjourney等公司生成的图像。”然，Tushnett教授指出，Firefly学习自Midjourney生成的图像的事实与其声称与其他图像生成AI不同的说法相矛盾。

Firefly Adobe AI头条
AI图像编辑工具Facet AI 实时图像生成，可精确控制图像元素

Facet AI是一款创新的图像编辑工具，它以其独特的功能和用户友好的操作界面，为广告制作和产品图像设计领域带来了革命性的变化。这款工具的核心优势在于其精确控制图像元素的能力，使得用户可以轻松地对图像进行实时编辑和调整。官网地址：https://facet.ai/Facet AI的直观画布操作是其一大亮点。用户可以通过简单的拖拽和调整，实现对图像

Facet AI头条
ImagenHub官网体验入口 AI图像生成模型评估平台使用指南方法教程

ImagenHub是一个一站式库，用于标准化所有条件图像生成模型的推理和评估。该项目首先定义了七个突出的任务并创建了高质量的评估数据集。ImagenHub设计了两个人工评估指标，语义一致性和感知质量，并训练专家评审员根据这些指标对模型输出进行评估，获得了高的评估者间一致性。

ImagenHub
DreamWalk：实现对图像生成风格和内容的精细控制

在图像生成领域，精确控制图像的风格和特征一直是一个具有挑战性的问题。DreamWalk技术的出现为这一难题提供了解决方案，使得用户可以更加自由地决定图像中哪部分应该更加强烈地体现某种风格哪部分则保持原样或采用另一种风格。这一功能为用户提供了一种简单有效的方式，将他们的照片或收藏的图像转化为独特的艺术风格，从丰富了数字艺术的创作方式。

DreamWalk AI头条
北大发布新图像生成框架VAR 推理速度提高20倍

北京大学最近发布了一种新的图像生成框架，名为VAR。这一突破性的技术首次使GPT风格的自回归模型在图像生成上超越了扩散transformer，同时展现出了与大语言模型观察到的类似Scalinglaws的规律。VAR算法为计算机视觉中的自回归算法设计提供了新的见解，有望推动这一领域的进一步发展。

图像生成 AI头条
Adobe发布新一代图像生成模型Firefly Image3，号称迄今为止最好

Adobe发布了Firefly图像生成模型的最新版本，名为FireflyImage3，声称具有“摄影细节”的图像生成能力。相比之前的版本，这一第三代模型在图像生成能力上有了显著的改进。即使是新手用户也可以在Photoshop中游刃有余，并更快地成为高级用户，PhotoshopgentechAI产品管理总监JohnMetzger表示。

Adobe FireflyImage3 AI头条
Meta 在 WhatsApp 中加入实时AI图像生成功能

当用户在与MetaAI的聊天中开始输入文本到图像的提示时，将看到随着添加更多关于想创建的内容的细节，图像如何变化。在Meta分享的示例中，一个用户输入了提示:“想象一场在火星上进行的足球比赛。这一新功能是Meta在其所有应用程序中推出AI功能的一部分，包括WhatsApp、Instagram、Facebook和Messenger。

WhatsApp Meta AI图像生成
FACET官网体验入口 AI图像生成和编辑器在线使用地址

FACET 是一款协作式AI图像生成和编辑器，专为专业图像合成提供支持。它提供个性化、私密的AI生成，可根据您的审美进行微调。只需几张样本图片和文本标签，便可以训练一个能理解特定风格的定制AI模型。点击前往FACET官网体验入口谁可以从FACET中受益？FACET适用于艺术家、设计师等创意人士，帮助他们生成个性化艺术品、进行图像编辑和修饰，以及训练定制的AI模型。FACET的�

FACET
Meta推新框架OPT2I 提高SD图像生成一致性

Meta公司最近推出了一款名为OPT2I的新框架，该框架利用大型语言模型来提高SD图像从提示词到图像的生成过程中的一致性。OPT2I是一个优化框架，旨在提升T2I模型中的提示-图像一致性。OPT2I框架为提高T2I模型的提示-图像一致性提供了一种新的有效方法。

Meta AI头条
北大字节提出图像生成新范式VAR 超越Sora核心组件DiT

北大与字节跳动AILab联合提出了一种图像生成新范式——VAR，这一新方法的核心在于预测下一级分辨率非传统的预测下一个token。VAR的提出不仅在图像生成质量上超越了Sora的核心组件DiffusionTransformer在推理速度上也实现了20倍以上的提升。VAR的开源也体现了学术界与工业界合作的积极成果，有助于推动整个AI领域的发展和创新。

VAR AI头条

今日大家都在搜的词：

热文

3 天
7天

AI新模型KOSMOS-G：实现零样本高保真图像生成

今日大家都在搜的词：

热文

站长商机