首页 > 传媒 > 关键词  > 正文

助力AIGC绘图!网易互娱AI Lab图像生成论文被AI会议接收

2023-08-07 14:50 · 稿源: 站长之家用户

ICCV(International Conference on Computer Vision),即计算机视觉国际大会,是计算机视觉领域世界顶 级的学术会议,在国际上享有盛誉并具有广泛的学术影响力。近日,网易互娱AI Lab的一篇关于图像生成的学术论文被 ICCV 2023接收。该论文面向基于单张图像的图像编辑任务,给单张参考图像,即可把图中的物体或风格迁移至源图像,同时不改变源图像的整体结构。

论文标题:General Image-to-Image Translation with One-Shot Image Guidance

论文效果图:每组图片左上角是源图,左下角是参考图,右侧是生成结果图

论文概述

近年来,图像生成技术取得了很多关键性突破。特别是自从DALLE2、Stable Diffusion等大模型发布以来,文本生成图像技术逐渐成熟,高质量的图像生成有了广阔的实用场景。然而,对于已有图片的细化编辑依旧是一个难题。一方面,由于文本描述的局限性,现有的高质量文生图模型,只能利用文本对图片进行描述性的编辑,而对于某些具体效果,文本是难以描述的;另一方面,在实际应用场景中,图像细化编辑任务往往只有少量的参考图片,这让很多需要大量数据进行训练的方案,在少量数据,特别是只有一张参考图像的情况下,难以发挥作用。

为了解决现有问题,网易互娱AI Lab提出了一种通用的基于单样本图像引导的图像编辑技术——VCT(visual concept translator,视觉概念转换器)。给定一张源图像,VCT可以在只有一张参考图像的情况下,经过少量的优化步骤,即可将源图像的内容变成参考图像的风格或物体,同时不改变源图像的整体结构。

论文主体框架

基于一个预训练的文生图模型,VCT 的整体框架包括两个过程:内容-概念反演过程(Content-concept Inversion)和内容-概念融合过程(Content-concept Fusion)。其中,内容-概念反演过程通过两种不同的反演算法,分别学习和表示原图像的结构信息和参考图像的语义信息的隐向量;内容-概念融合过程则将结构信息和语义信息的隐向量进行融合,生成最后的结果。

VCT相较于以往的方案有以下优势:

(1)应用泛化性:与以往的基于图像引导的图像编辑任务相比,VCT不需要大量的数据进行训练,且生成质量和泛化性更好。其基于反演的思路,以在开放世界数据预训练好的高质量文生图模型为基础,实际应用时,只需要一张输入图和一张参考图就可以完成较好的图片编辑效果。

(2)视觉准确性:相较于近期文字编辑图像的方案,VCT利用图片进行参考引导。 图片参考相比于文字描述,可以更加准确地实现对图片的编辑。下图展示了在风格化任务上,与其它方案的对比结果:

效果对比1:第 一列是参考图,第二列是源图,最后一列是本文的结果

(3)不需要额外信息:相较于近期的一些需要添加额外控制信息(如:遮罩图或深度图)等方案来进行引导控制的方案,VCT直接从源图像和参考图像学习结构信息和语义信息来进行融合生成,下图是一些对比结果。其中,Paint-by-example通过提供一个源图像的遮罩图,来将对应的物体换成参考图的物体;Controlnet通过线稿图、深度图等控制生成的结果;而VCT则直接从源图像和参考图像,学习结构信息和内容信息融合成目标图像,不需要额外的限制。

网易互娱AI Lab

网易互娱AI Lab成立于2017年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。实验室致力于计算机视觉、语音和自然语言处理,以及强化学习等技术在游戏场景下的的研究和应用,旨在通过AI技术助力互娱旗下热门游戏及产品的技术升级,目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》等等。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • Custouch市场易AI技术入选Topdigital2025全球AI营销图谱

    《TopDigital2025全球AI营销图谱》近日发布,Custouch市场易入选"内容智能生成"板块。该图谱为AI技术重构营销提供全链路产业地图,整合企业官网、学术报告、专利库等多维度信息。Custouch凭借AI技术在B2B营销领域的创新应用入选,其智能解决方案能有效满足企业实际需求。作为数字营销技术服务商,Custouch已为300+国际头部企业提供一站式营销管理体系,涵盖内容、活动、线索等全流程,助力企业实现高质量增长。此次入选既是对其AI成果的肯定,也是对其未来发展的激励。

  • 用AI绘图开发游戏,一天就可完成一个游戏!

    文章介绍了一款融合《饥荒》诡异画风与密室逃脱玩法的解谜冒险游戏《密室求生》。游戏通过Holopix AI工具制作素材,解决了独立开发者面临的素材获取难题:1)AI可快速生成统一风格的场景、角色和道具图标;2)支持文生图功能,通过详细提示词优化生成效果;3)提供丰富的微调功能,包括五官调整、明暗调节等;4)支持线稿提取、智能扩图等实用功能。该工具能有效降�

  • 男子用AI造谣“女儿被抱走”:内容是编的 图是网上找的

    近日,一则用AI生成的寻人启事”引发关注。 该则寻人启事”配文为寻找我最爱的宝贝:王喵喵。亲爱的朋友们,此刻我们全家怀着万分焦急的心情,恳请您帮忙留意一位走失的小女孩。” 其中细节详实,还附上了女孩”的照片及其父亲”与母亲”的联系电话。 然而事实上,这其实是一男子为博取关注,用AI生成的假寻人启事。 在看到寻人启事后,民警曾尝试拨打其所谓�

  • 淘宝天下入选《TopDigital2025全球AI营销图谱》

    7月29日,淘宝天下凭借AI服务平台"淘宝AI智+"的创新实践,成功入选《TopDigital2025全球AI营销图谱》"智能分析与决策"赛道。该平台整合淘宝生态数据资源,构建覆盖数据分析、智能营销、内容生成等全链路的AI解决方案体系,通过模块化设计降低使用门槛,帮助商家实现降本增效。平台还提供深度定制开发服务,推动AI能力与业务场景有机融合。此次入选标志着淘宝天下在AI技术创新与商业应用方面的成果获得行业认可。团队表示将持续聚焦AI技术实用价值转化,拓展电商营销领域的创新应用场景。

  • 第五人格崩了上热搜 网易旗下多款游戏回应:紧急排查中

    今日上午,网易旗下多款热门手游集体出现无法登录的异常情况,包括《阴阳师》《第五人格》《七日世界》《一梦江湖》等游戏的玩家纷纷在社交平台反馈登录受阻。相关话题“网易游戏崩了”迅速登上微博热搜榜,引发广泛关注。

  • 23所顶尖高校学子“玩转”AI创作!快手AIGC大赛点燃暑期青春风暴

    快手联合清华、北大等23所顶尖高校发起"青春筑梦·强国有我"AIGC创意短视频征集活动,吸引超万部作品参赛。活动通过可灵AI等工具降低创作门槛,激发高校学子创意潜能,如"加勒比海盗冲浪"等新颖构想。平台为优秀作品提供亿级流量支持,推动AIGC内容高质量发展。专家指出,国产大模型正从辅助工具升级为人才培养核心引擎,助力弥合知识与实践的断层。此次活动标志着AIGC在赋能青年创作、激活平台生态方面迈出重要一步。

  • AI日报:阿里推全新图片模型Qwen-Image;小米全量开源MiDashengLM-7B;智谱Zread.ai搭载 GLM-4.5

    本文汇总了AI领域最新动态:1)阿里开源文生图模型Qwen-Image,中文文本渲染领先;2)ChatGPT周活用户达7亿,OpenAI年收入120亿美元;3)Anthropic测试Claude Opus 4.1,推理能力升级;4)智谱推出开发工具Zread.ai提升代码理解效率;5)xAI发布Grok Imagine4支持文生视频及NSFW内容;6)Character.AI推出首个AI原生社交功能;7)阿里与南开合作视频压缩技术LLaVA-Scissor;8)北京团队突破人形机器人3D视觉系统�

  • AI原生游戏与跨境算力布局,游族网络在WAIC 2025展现新蓝图

    2025世界人工智能大会(WAIC)上,游族网络展示了其向"AI驱动型互动娱乐科技公司"转型的战略布局。公司首次公开正在研发的《三体》正版IP游戏《我的三体:2277》,将其定义为"AI原生游戏",强调AI不仅是研发工具,更是玩家参与内容创作的重要元素。此外,游族网络通过与曦智科技、长城科技等企业达成算力安全合作,构建"国产算力+密态安全+场景创新"三位一体的自主可控算力安全底座。公司还当选上海人工智能行业协会副会长单位,并入选"语料风云榜"转型典范TOP10,展现其在AI技术标准制定和跨行业资源整合方面的布局。

  • 在线 AI 工具大盘点:哪个生图更好用?超实用导航网站推荐

    文章介绍了当前在线AI工具在各领域的广泛应用,重点分析了写作、设计和教育三大领域的代表性工具。写作方面,ChatGPT和豆包能快速生成各类文本内容;设计领域,Adobe Firefly和Canva通过AI简化创作流程;教育工具如松鼠Ai提供个性化学习方案。文章还对比了Midjourney、Stable Diffusion和文心一格等生图工具的优劣,最后推荐AIbase导航网站帮助用户快速找到合适工具。这些AI工具显著

  • 渣打中国与网易数帆展开合作,探索数据开发智能化升级

    7月23日,渣打银行(中国)与网易数帆在上海举行线下交流会,探讨金融行业数据治理、AI技术与银行数字化发展等议题。渣打中国首席信息官乔建新等高管出席。作为历史悠久的国际银行,渣打持续加大金融科技投入,加快数字化转型。网易数帆基于20余年技术沉淀,以数据应用为核心,助力金融机构释放数据价值。2022年双方合作升级EasyData平台,此次进一步探讨AI技术提升数据开发效能的新路径,展示自然语言生成代码等功能。未来双方将继续深化合作,推动前沿科技在金融领域的创新应用。

热文