首页 > 传媒 > 关键词  > 正文

助力AIGC绘图!网易互娱AI Lab图像生成论文被AI会议接收

2023-08-07 14:50 · 稿源: 站长之家用户

ICCV(International Conference on Computer Vision),即计算机视觉国际大会,是计算机视觉领域世界顶 级的学术会议,在国际上享有盛誉并具有广泛的学术影响力。近日,网易互娱AI Lab的一篇关于图像生成的学术论文被 ICCV 2023接收。该论文面向基于单张图像的图像编辑任务,给单张参考图像,即可把图中的物体或风格迁移至源图像,同时不改变源图像的整体结构。

论文标题:General Image-to-Image Translation with One-Shot Image Guidance

论文效果图:每组图片左上角是源图,左下角是参考图,右侧是生成结果图

论文概述

近年来,图像生成技术取得了很多关键性突破。特别是自从DALLE2、Stable Diffusion等大模型发布以来,文本生成图像技术逐渐成熟,高质量的图像生成有了广阔的实用场景。然而,对于已有图片的细化编辑依旧是一个难题。一方面,由于文本描述的局限性,现有的高质量文生图模型,只能利用文本对图片进行描述性的编辑,而对于某些具体效果,文本是难以描述的;另一方面,在实际应用场景中,图像细化编辑任务往往只有少量的参考图片,这让很多需要大量数据进行训练的方案,在少量数据,特别是只有一张参考图像的情况下,难以发挥作用。

为了解决现有问题,网易互娱AI Lab提出了一种通用的基于单样本图像引导的图像编辑技术——VCT(visual concept translator,视觉概念转换器)。给定一张源图像,VCT可以在只有一张参考图像的情况下,经过少量的优化步骤,即可将源图像的内容变成参考图像的风格或物体,同时不改变源图像的整体结构。

论文主体框架

基于一个预训练的文生图模型,VCT 的整体框架包括两个过程:内容-概念反演过程(Content-concept Inversion)和内容-概念融合过程(Content-concept Fusion)。其中,内容-概念反演过程通过两种不同的反演算法,分别学习和表示原图像的结构信息和参考图像的语义信息的隐向量;内容-概念融合过程则将结构信息和语义信息的隐向量进行融合,生成最后的结果。

VCT相较于以往的方案有以下优势:

(1)应用泛化性:与以往的基于图像引导的图像编辑任务相比,VCT不需要大量的数据进行训练,且生成质量和泛化性更好。其基于反演的思路,以在开放世界数据预训练好的高质量文生图模型为基础,实际应用时,只需要一张输入图和一张参考图就可以完成较好的图片编辑效果。

(2)视觉准确性:相较于近期文字编辑图像的方案,VCT利用图片进行参考引导。 图片参考相比于文字描述,可以更加准确地实现对图片的编辑。下图展示了在风格化任务上,与其它方案的对比结果:

效果对比1:第 一列是参考图,第二列是源图,最后一列是本文的结果

(3)不需要额外信息:相较于近期的一些需要添加额外控制信息(如:遮罩图或深度图)等方案来进行引导控制的方案,VCT直接从源图像和参考图像学习结构信息和语义信息来进行融合生成,下图是一些对比结果。其中,Paint-by-example通过提供一个源图像的遮罩图,来将对应的物体换成参考图的物体;Controlnet通过线稿图、深度图等控制生成的结果;而VCT则直接从源图像和参考图像,学习结构信息和内容信息融合成目标图像,不需要额外的限制。

网易互娱AI Lab

网易互娱AI Lab成立于2017年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。实验室致力于计算机视觉、语音和自然语言处理,以及强化学习等技术在游戏场景下的的研究和应用,旨在通过AI技术助力互娱旗下热门游戏及产品的技术升级,目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》等等。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 如何用网易天音 AI 快速生成背景音乐?

    网易天音是一款AI音乐生成工具,专为美食、生活类短视频提供定制背景音乐。用户无需专业账号,通过场景标签或文字描述即可快速生成适配音乐。操作流程:1.进入官网或App点击"开始创作";2.输入关键词(如"蛙声、稻花")或具体需求描述;3.AI自动生成音乐并试听筛选;4.下载MP3格式文件。支持中文指令识别,能自动匹配场景风格(轻快钢琴、电子音效等)�

  • 如何用 AI工具 生成论文选题

    本教程介绍如何利用DeepSeek AI工具生成学术论文选题。首先需要明确自身专业、研究方向、兴趣领域等研究信息。通过特定格式构建提问指令,在DeepSeek平台输入后,AI会基于算法分析生成10个相关选题。用户需从研究价值、创新性、可行性等维度评估选题,筛选出最适合的研究方向。该工具能有效帮助研究者快速获取选题思路,提高学术论文创作效率。

  • 发布AI Agent开发平台,做强AI生态… 网易数智接下来这么干

    AI时代正从AIGC转向AI Agent发展。微软CEO纳德拉预测AI Agent将成为新应用,Gartner预计到2028年超1/3企业软件将集成AI Agent功能。网易数智发布CoreAgent智能体开发平台及多款行业智能体,助力企业快速落地AI应用。文章指出当前AI Agent面临技术门槛高、场景适配难等挑战,网易提出"技术共生、市场共拓、利润共享"的生态协同理念,强调AI需要与行业know-how结合才能创造真实价值。网易数智宣布品牌升级,从"科技蓝"变为"网易红",展现拥抱AI时代的决心。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • 盲盒抢不到?纳米AI搜索把你的Labubu变成数字隐藏款

    Labubu潮玩IP通过纳米AI搜索实现数字化创新。用户可通过文字或图片一键生成专属Labubu动态壁纸、创意设计等,还能定制与Labubu的互动瞬间。该技术让普通用户也能轻松参与潮玩创作,满足年轻人情感表达需求。纳米AI搜索正从工具进化为创作伙伴,支持跨平台深度搜索和复杂任务处理,让潮流文化以更个性化方式融入生活。目前相关功能已在纳米AI搜索APP上线,用户可自由创造属于自己的Labubu藏品。

  • AI设计工具是设计师的梦魇还是福音?家居AIGC平台「暗壳科技」希望引发效率革命

    暗壳科技推出的家居AIGC平台引发行业热议。该平台基于深度学习技术,能在几分钟内根据用户需求生成多套高质量设计方案,支持3D效果图实时渲染,将传统设计流程从数周缩短至几分钟。平台提供"AI辅助协作"功能,设计师可快速调整机器生成的草图,将方案修改时间从几小时压缩至几分钟。有工作室反馈使用后客户提案通过率提升40%。争议焦点在于:AI会取代设计师�

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • 终于知道LABUBU像谁了上热搜 网友:跟张飞长得太像了

    近日,Labubu这一热门形象与经典影视角色张飞产生了奇妙的关联,引发了网友们的广泛关注和热烈讨论。 原本Labubu以其独特的外形和设计在潮玩界拥有众多粉丝,然而近期有网友在社交媒体上指出,Labubu跟经典影视里的张飞神态神同步,仿佛一个模子刻出来的。 这一发现迅速在网络上传播开来,众多社交媒体平台上相继出现了关于“Labubu与张飞”对比的话题标签,如#终于知

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • 腾讯云TencentOS Server AI,助力荣耀打造高性能AI底座

    随着生成式AI技术爆发式增长,AI大模型开始渗透至手机领域。荣耀基于腾讯云TencentOS Server AI的TACO-LLM加速模块部署DeepSeek-R1等开源大模型,在内部场景应用中实现稳定性、可靠性和推理性能的大幅提升。测试显示,使用TACO-LLM后,首Token延迟最高降低6.25倍,吞吐提升2倍,端到端延迟降低100%。TACO-LLM通过投机采样技术实现大模型"并行"解码,从根本上解决计算密度问题,大幅提升解码效率。荣耀表示该方案打造了高性能AI底座,提供高吞吐低延迟的优化方案,能无缝整合现有大模型部署方案。腾讯云TACO-LLM针对企业级AI模型私有化部署挑战,专门优化了大语言模型内核运行效率。