首页 > 传媒 > 关键词  > 正文

助力AIGC绘图!网易互娱AI Lab图像生成论文被AI会议接收

2023-08-07 14:50 · 稿源: 站长之家用户

ICCV(International Conference on Computer Vision),即计算机视觉国际大会,是计算机视觉领域世界顶 级的学术会议,在国际上享有盛誉并具有广泛的学术影响力。近日,网易互娱AI Lab的一篇关于图像生成的学术论文被 ICCV 2023接收。该论文面向基于单张图像的图像编辑任务,给单张参考图像,即可把图中的物体或风格迁移至源图像,同时不改变源图像的整体结构。

论文标题:General Image-to-Image Translation with One-Shot Image Guidance

论文效果图:每组图片左上角是源图,左下角是参考图,右侧是生成结果图

论文概述

近年来,图像生成技术取得了很多关键性突破。特别是自从DALLE2、Stable Diffusion等大模型发布以来,文本生成图像技术逐渐成熟,高质量的图像生成有了广阔的实用场景。然而,对于已有图片的细化编辑依旧是一个难题。一方面,由于文本描述的局限性,现有的高质量文生图模型,只能利用文本对图片进行描述性的编辑,而对于某些具体效果,文本是难以描述的;另一方面,在实际应用场景中,图像细化编辑任务往往只有少量的参考图片,这让很多需要大量数据进行训练的方案,在少量数据,特别是只有一张参考图像的情况下,难以发挥作用。

为了解决现有问题,网易互娱AI Lab提出了一种通用的基于单样本图像引导的图像编辑技术——VCT(visual concept translator,视觉概念转换器)。给定一张源图像,VCT可以在只有一张参考图像的情况下,经过少量的优化步骤,即可将源图像的内容变成参考图像的风格或物体,同时不改变源图像的整体结构。

论文主体框架

基于一个预训练的文生图模型,VCT 的整体框架包括两个过程:内容-概念反演过程(Content-concept Inversion)和内容-概念融合过程(Content-concept Fusion)。其中,内容-概念反演过程通过两种不同的反演算法,分别学习和表示原图像的结构信息和参考图像的语义信息的隐向量;内容-概念融合过程则将结构信息和语义信息的隐向量进行融合,生成最后的结果。

VCT相较于以往的方案有以下优势:

(1)应用泛化性:与以往的基于图像引导的图像编辑任务相比,VCT不需要大量的数据进行训练,且生成质量和泛化性更好。其基于反演的思路,以在开放世界数据预训练好的高质量文生图模型为基础,实际应用时,只需要一张输入图和一张参考图就可以完成较好的图片编辑效果。

(2)视觉准确性:相较于近期文字编辑图像的方案,VCT利用图片进行参考引导。 图片参考相比于文字描述,可以更加准确地实现对图片的编辑。下图展示了在风格化任务上,与其它方案的对比结果:

效果对比1:第 一列是参考图,第二列是源图,最后一列是本文的结果

(3)不需要额外信息:相较于近期的一些需要添加额外控制信息(如:遮罩图或深度图)等方案来进行引导控制的方案,VCT直接从源图像和参考图像学习结构信息和语义信息来进行融合生成,下图是一些对比结果。其中,Paint-by-example通过提供一个源图像的遮罩图,来将对应的物体换成参考图的物体;Controlnet通过线稿图、深度图等控制生成的结果;而VCT则直接从源图像和参考图像,学习结构信息和内容信息融合成目标图像,不需要额外的限制。

网易互娱AI Lab

网易互娱AI Lab成立于2017年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。实验室致力于计算机视觉、语音和自然语言处理,以及强化学习等技术在游戏场景下的的研究和应用,旨在通过AI技术助力互娱旗下热门游戏及产品的技术升级,目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》等等。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 智惠家AIGC——打造中国AI 服务第一入口

    文章探讨了从“互联网+”到“人工智能+”的信息技术革命深化进程,重点介绍了我国积极推动人工智能在各领域赋能与应用落地的举措。国务院印发《关于深入实施“人工智能+”行动的意见》,明确2027年新一代智能体应用普及率超70%的目标。智慧家AIGC响应政策,以社区家庭AI+教育场景为切入点,推出智能PAD等产品,通过免费使用策略获取用户流量,打造一站式服务平台,整合电商、本地生活及供应链资源,提供智能化、便捷化、个性化的新型生活服务。

  • 网易搞了个“副业”

    相比其他动辄瞄准万亿市场的同行,网易的风格决定了其在新业务拓展上基本遵循小叙事,强调高效率,带有强烈实用主义与碎片化色彩。 务实仿佛成了网易创新业务的定语,任何微小的创新都将场景作为迈出的第一步——其许多新业务未能走出“小打小闹”的范畴,随大市场需求而流变,尤其是在需求系统性思维to B领域。另一方面,常规互联网to B思路是既有业务与组织能�

  • AI科普新星崛起:陈天桥用AIGC技术重塑知识传播

    大圆镜科普通过AIGC技术打造电影级科普视频,以严谨科学内容和震撼视听体验成为知识传播领域标杆。依托天桥脑科学研究院资源,团队将电影制作标准引入AI创作,实现科学性与故事性完美融合。视频在B站、抖音等平台获得超1.8亿播放量,多次登上热榜并获专业奖项认可。从技术展示到价值创造,大圆镜科普展现了AIGC在科普领域的应用潜力,推动观众关注点从"是否AI制作"转向内容价值本身。

  • Nano Banana更像是AI图像领域的DeepSeek

    这是《窄播Weekly》的第66期,本期我们关注的商业动态是:Google最新的AI图像生成模型Nano Banana,可能会给AI图像领域带来一场应用大爆炸。 去年这个时候,我想把照片中人物手里拿的玩具火车换成玩具飞机,还需要给玩具火车做出精细标记,找到干净的玩具飞机图片,告诉AI将其替换成另一张图里的飞机。我花费一个小时,多番尝试下来,飞机会变形,人物的手会消失,最后的�

  • AI日报:腾讯开源图像模型HunyuanImage2.1;​爱诗科技获6000万美元融资;​Freepik上线豆包Seedream4.0图像模型

    本文汇总了AI领域的最新动态:腾讯升级混元生图模型至2.1版,支持2K分辨率与中英文输入;爱诗科技获阿里领投6000万美元融资,聚焦AI视频生成;Freepik上线Seedream 4.0图像模型,提供高分辨率生成选项;阿里千问新模型通过MoE架构提升推理效率10倍;微软在Office 365中集成Anthropic技术,调整AI供应商策略;首款AI Agent浏览器Fellou CE发布,简化工作流程;清华团队开源GUAVA技术,实现

  • 腾讯会议宣布上AI托管功能:AI帮你参会 帮写完整会议纪要

    腾讯会议联合元宝推出AI托管功能,可提前或会中一键开启,由AI代为参会并实时记录内容,生成智能纪要。用户可随时切换会议状态,离场时AI持续记录,会后提供完整摘要,支持浏览会议小结或详细内容,还可一键导出至元宝拓展发问。该功能旨在解决突发状况,确保不错过重要信息。

  • 基于通义万相 美图多款APP上线全新动漫特效、AI变身等视频生成功能

    今日,美图公司旗下美图秀秀、RoboNeo、Wink和开拍等多款产品,推出全新动漫特效、AI变身等视频生成功能。 据悉,新功能基于通义万相系列模型进行深度开发与训练,为美图的全球用户提供全新的创作体验。 近年来,美图加速布局生产力场景,不仅推出面向企业的AI算法服务和解决方案,旗下消费级产品也在快速集成大模型。 去年6月,美图就开始和阿里展开大模型合作。

  • 囤LABUBU的黄牛哭了:根本没人接盘

    曾经一娃难求的LABUBU目前在二手交易平台全线下跌。 在二手交易平台闲鱼上,LABUBU的挂售数量明显增加,卖家们纷纷降价,有的卖家标注亏本卖”、求回血”等字样。 目前不少黄牛已经暂停收货LABUBU,一位黄牛表示,我从事潮玩转手已经两年了,LABUBU一直是硬通货,但这次市场反应完全出乎意料,我手里还压着没有出手,估计要亏好几千。 另一方面,由于价格下跌,不少�

  • 从“能导航”到“会思考”,腾讯地图AI新品即将发布

    2025年腾讯全球数字生态大会将于9月16-17日在深圳举办。大会重点包括腾讯地图将发布时空智能开放平台GAIA,聚焦AI+地图战略价值,通过开放生态连接政企资源,推动行业数字化转型。平台结合LBS技术与AI大模型,深度挖掘时空数据价值,为企业提供决策支持。小红书、麦当劳等企业代表将分享实战案例,展示地图技术在零售、出行等领域的应用潜力。

  • 天网杯纳米AI视频创作赛圆满落幕,ISC.AI学苑推动“教育AI+”新范式

    9月23日,第三届“天网杯”网络安全大赛在天津落幕,吸引全国顶尖战队角逐,同期举办纳米AI视频创作赛。赛事聚焦个人信息保护、防诈 骗等网络安全议题,通过“以赛促学”模式提升学生防护意识与AI应用能力。ISC.AI学苑作为平台支持,依托“纳米AI”技术降低创作门槛,推动“安全+AI”人才培养。大赛评选出24个奖项,并联合多所高校深化合作,促进AI技术在教育场景的落

今日大家都在搜的词: