首页 > 业界 > 关键词  > KOSMOS-G最新资讯  > 正文

AI新模型KOSMOS-G:实现零样本高保真图像生成

2023-10-12 14:42 · 稿源:站长之家

划重点:

🔍 近期,图像生成技术取得显著进展,但从广义视觉语言输入生成图像一直是未开拓领域。

🖼️ KOSMOS-G 是一个新型模型,利用多模型LLMs解决这一问题,能够从文本描述中生成详细图像。

🌟 KOSMOS-G是首个能够根据描述生成包含多个对象的图像的模型,可用于替代CLIP,并开启更多应用领域。

站长之家(ChinaZ.com)10月12日 消息:最近,图像生成技术取得了显著的进展,尤其是在从文本描述生成图像以及将文本和图像结合生成新图像方面。然而,一个尚未充分探索的领域是从广义视觉语言输入生成图像,例如从描述涉及多个对象和人物的场景生成图像。微软研究、纽约大学和滑铁卢大学的研究人员引入了KOSMOS-G,这是一种利用多模型LLMs来解决这一问题的模型。

KOSMOS-G能够从文本描述和多幅图片的复杂组合中创建详细的图像,即使它以前没有见过这些示例。它是第一个能够在描述中包含各种对象或事物的图像中生成图像的模型。KOSMOS-G可以替代CLIP,这为使用ControlNet和LoRA等其他技术开辟了新的应用可能性。

KOSMOS-G采用了一种巧妙的方法来从文本和图像生成图像。它首先通过训练多模型LLM(能够同时理解文本和图像),然后与CLIP文本编码器进行对齐(擅长理解文本)。当我们为KOSMOS-G提供包含文本和分段图像的标题时,它经过训练来创建与描述匹配并遵循说明的图像。它通过使用预训练的图像解码器并利用从图像中学到的知识来在不同情境下生成准确的图像。

image.png

KOSMOS-G能够根据说明和输入数据生成图像。它经历了三个训练阶段。在第一阶段,该模型在多模型语料库上进行了预训练。在第二阶段,通过CLIP监督,训练了一个AlignerNet来将KOSMOS-G的输出空间与U-Net的输入空间对齐。在第三阶段,KOSMOS-G通过对精心策划的数据执行构成生成任务来进行微调。在阶段1,只训练MLLM。在阶段2,带有MLLM冻结的AlignerNet进行了训练。在阶段3,AlignerNet和MLLM都进行了联合训练。图像解码器在所有阶段都保持冻结状态。

KOSMOS-G在不同设置下的零样本图像生成非常出色。它可以生成有意义、漂亮且可以根据需要进行定制的图像。它可以改变上下文、添加特定风格、进行修改并添加图像的额外细节。KOSMOS-G是第一个能够在零样本设置中实现多实体VL2I的模型。

KOSMOS-G可以轻松取代图像生成系统中的CLIP,这为以前不可能的应用领域打开了令人兴奋的新可能性。通过构建在CLIP的基础上,KOSMOS-G有望推动从基于文本生成图像转向基于文本和视觉信息的组合生成图像,为许多创新应用创造机会。

KOSMOS-G是一种能够从文本和多个图像生成详细图像的模型。它采用了一种独特的训练策略,即“在指导之前对齐”。KOSMOS-G擅长制作单个对象的图像,并是首个能够在多个对象的情况下做到这一点的模型。它还可以替代CLIP,并与ControlNet和LoRA等其他技术一起使用于新的应用。简而言之,KOSMOS-G是将图像生成塑造成一种语言的初步步骤。

论文网址:https://arxiv.org/abs/2310.02992

举报

  • 相关推荐
  • Meta AI新增生成式AI视频编辑功能:秒换服装、场景

    Meta 宣布,将在Meta AI应用、Meta.AI网站和Edits应用上推出一项生成式AI视频编辑功能。 用户可通过50多种预设AI提示词,一键实现视频中服装、场景、光影等元素的智能变换。 Meta称,全新的AI视频编辑功能直观易用,用户无需任何视频编辑专业知识即可制作高质量的视频。首先,用户可将视频上传到Meta AI应用、Meta.AI网站或

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • 如何辨别AI生成的图片文字声音?分享一些小技巧

    在人工智能生成内容日益普及的今天,辨别AI生成的图片、文字和声音变得尤为重要。以下是一些实用的技巧,希望能帮到你……

  • 快手可灵AI上线2.1系列模型:生成5秒视频不到1分钟

    快手旗下可灵AI发布2.1系列模型,包含720p标准版和1080p高品质版,在性价比、生成速度和质量三大维度实现突破。新模型生成5秒视频仅需20-35灵感值,与上代保持相同成本;1080p视频生成时间不到1分钟,快于行业同级产品2-3倍。模型在动态表现、物理模拟和语义理解方面均有优化,人物动作更真实自然。可灵AI自发布以来发展迅猛,全球用户突破2200万,月活增长25倍,累计生成1.68亿视频和3.44亿图片。商业化进程加速,2025年Q1营收超1.5亿元人民币,展现强劲市场潜力。

  • 大模型都能冲清北了?首个AI高考总分评测结果出炉

    7家国产大模型参加2025年辽宁高考模拟测试,结果显示:腾讯元宝在文科考试中以667.5分夺冠,接近清北录取线;豆包、讯飞星火分别以655分和652分紧随其后,均达985高校水平。理科方面,豆包以635分领先,元宝和Kimi分别获得632.5分和629分。测试发现大模型在文科表现优于理科,尤其在语文作文和数学解题能力突出,元宝数学获得149分高分。但在理科综合科目存在短板,物理化学的解题过程和知识点推导不够完整,图像符号理解不足。相比去年,今年大模型整体能力显著提升,已从"文科一本、理科二本"水平进步到冲击顶尖高校的水平,展现了国产AI的快速发展。

  • 如何用 AI工具 生成论文选题

    本教程介绍如何利用DeepSeek AI工具生成学术论文选题。首先需要明确自身专业、研究方向、兴趣领域等研究信息。通过特定格式构建提问指令,在DeepSeek平台输入后,AI会基于算法分析生成10个相关选题。用户需从研究价值、创新性、可行性等维度评估选题,筛选出最适合的研究方向。该工具能有效帮助研究者快速获取选题思路,提高学术论文创作效率。

  • 小白如何用海绵音乐生成AI音乐?

    本教程介绍如何利用AI音乐生成工具"海绵音乐"零基础创作个性化音乐。通过输入情绪(治愈/欢快)、乐器(钢琴/吉他)、节奏(慢/中/快)等关键词,AI可快速生成适合短视频配乐、背景音乐等场景的原创音乐。操作流程简单:注册账号→输入关键词→生成试听→下载使用。关键技巧包括使用具体关键词组合、多次调整优化。注意商用需确认版权,部分功能需付费。该工具让音

  • 科技创新▪科普惠民 iRest艾力斯特温州国际康复大会共研AI新发展

    5月28-30日,第二届温州国际康复大会以"科技创新·科普惠民"为主题成功举办。大会聚焦人工智能、机器人技术、脑机接口等前沿技术在康复医学领域的应用,设立院士论坛、康复大咖论坛及18个专业分论坛。iRest艾力斯特作为承办单位,展示了AI+康复器械创新成果,并与温州医科大学附属第二医院签署横向课题合作协议,共建数据模型产业学院。会上成立"艾力斯特创新研究院",聘请多位院士专家担任要职,并向浙江省残疾人福利基金会捐赠价值100万元的智能康复设备,践行科技普惠社会责任。多位行业专家围绕智能康复器械发展进行深入探讨,推动康复产业从"中国制造"迈向"中国智造"。

  • 如何用豆包音乐生成功能创作AI歌曲?

    本文介绍如何利用豆包AI工具进行音乐创作。用户可通过APP或网页端(https://www.doubao.com/chat)使用该功能,按照固定句式输入创作需求:包括歌曲主题、音乐风格(如民谣、流行)、表达情绪(快乐、怀旧等)及音色选择(男声/女声)。系统会根据指令自动生成歌词并配乐,用户可即时查看歌词内容和播放生成的音乐。操作流程简单:打开豆包→选择音乐生成功能→填写创作指令→提交等

  • 一场文心大模型的「AI马拉松」

    对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年,模型能力的重要性依然无需多言。 从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。 从后训练的角度来看,强化学习新范式正�