何恺明与MIT合作推出自条件图像生成框架RCG

2023-12-08 16:49 · 稿源：站长之家

要点:
何恺明与MIT合作推出的新自条件图像生成框架RCG在ImageNet-1K数据集上取得了无条件图像生成的新SOTA成绩，无需人类注释，保真且多样。
RCG框架基于类似自监督学习的自条件生成方法，利用表示扩散模型RDM生成低维自监督图像表示，通过SSL图像编码器和MAGE像素生成器实现图像生成。
RCG在ImageNet256×256上实现了3.56的FID和186.9的IS得分。

站长之家（ChinaZ.com）12月8日消息:近期，何恺明与MIT合作推出的自条件图像生成框架RCG在学术圈引起关注。这一框架成功填补了长期存在的有条件和无条件生成任务性能差距，取得了ImageNet-1K数据集上无条件图像生成的新SOTA成绩。

RCG的设计灵感来源于自监督学习，通过表示扩散模型RDM生成低维自监督图像表示。这一表示条件图像生成架构包括SSL图像编码器、RDM和MAGE像素生成器，结构简单而高效。

论文地址:https://arxiv.org/pdf/2312.03701.pdf

为了实现无条件图像生成，RCG的关键在于将图像分布转换为紧凑的表示分布，通过SSL图像编码器实现。RDM模型用于对表示分布进行建模和采样，具有多样性强、计算开销小的优点。最后，MAGE像素生成器根据表示来处理图像像，通过向token化的图像中添加随机掩码并要求网络以条件重建丢失的token，实现图像生成。

RCG在ImageNet256×256上的表现令人瞩目，取得了3.56的FID和186.9的IS得分，相较于之前最先进的无条件生成方法有着显著提升。不仅如此，RCG在无分类器引导的情况下，成绩还能进一步提高到3.31（FID）和253.4(IS)。这一成果展示了自条件图像生成模型的潜力，为图像生成领域带来了新的可能性。

总的来说，何恺明与MIT的合作研究为无条件图像生成领域带来了新的突破，RCG框架的成功应用表明自条件图像生成模型具有巨大的潜力，可能预示着这一领域新时代的到来。

（举报）

相关推荐
大家在看

关键词：

框架

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
北大发布新图像生成框架VAR 推理速度提高20倍

北京大学最近发布了一种新的图像生成框架，名为VAR。这一突破性的技术首次使GPT风格的自回归模型在图像生成上超越了扩散transformer，同时展现出了与大语言模型观察到的类似Scalinglaws的规律。VAR算法为计算机视觉中的自回归算法设计提供了新的见解，有望推动这一领域的进一步发展。

图像生成 AI头条
AI图像编辑工具Facet AI 实时图像生成，可精确控制图像元素

Facet AI是一款创新的图像编辑工具，它以其独特的功能和用户友好的操作界面，为广告制作和产品图像设计领域带来了革命性的变化。这款工具的核心优势在于其精确控制图像元素的能力，使得用户可以轻松地对图像进行实时编辑和调整。官网地址：https://facet.ai/Facet AI的直观画布操作是其一大亮点。用户可以通过简单的拖拽和调整，实现对图像

Facet AI头条
Adobe图像生成AI “Firefly” 训练集中约有5%为AI图像

Adobe的图像生成AI“Firefly”以其训练集来源自AdobeStock中的图片和视频闻名。美国经济报纸彭博社报道称，Firefly的数据集实际上包含由Midjourney等公司生成的图像。”然，Tushnett教授指出，Firefly学习自Midjourney生成的图像的事实与其声称与其他图像生成AI不同的说法相矛盾。

Firefly Adobe AI头条
DreamWalk：实现对图像生成风格和内容的精细控制

在图像生成领域，精确控制图像的风格和特征一直是一个具有挑战性的问题。DreamWalk技术的出现为这一难题提供了解决方案，使得用户可以更加自由地决定图像中哪部分应该更加强烈地体现某种风格哪部分则保持原样或采用另一种风格。这一功能为用户提供了一种简单有效的方式，将他们的照片或收藏的图像转化为独特的艺术风格，从丰富了数字艺术的创作方式。

DreamWalk AI头条
FACET官网体验入口 AI图像生成和编辑器在线使用地址

FACET 是一款协作式AI图像生成和编辑器，专为专业图像合成提供支持。它提供个性化、私密的AI生成，可根据您的审美进行微调。只需几张样本图片和文本标签，便可以训练一个能理解特定风格的定制AI模型。点击前往FACET官网体验入口谁可以从FACET中受益？FACET适用于艺术家、设计师等创意人士，帮助他们生成个性化艺术品、进行图像编辑和修饰，以及训练定制的AI模型。FACET的�

FACET
北大字节提出图像生成新范式VAR 超越Sora核心组件DiT

北大与字节跳动AILab联合提出了一种图像生成新范式——VAR，这一新方法的核心在于预测下一级分辨率非传统的预测下一个token。VAR的提出不仅在图像生成质量上超越了Sora的核心组件DiffusionTransformer在推理速度上也实现了20倍以上的提升。VAR的开源也体现了学术界与工业界合作的积极成果，有助于推动整个AI领域的发展和创新。

VAR AI头条
Meta 在 WhatsApp 中加入实时AI图像生成功能

当用户在与MetaAI的聊天中开始输入文本到图像的提示时，将看到随着添加更多关于想创建的内容的细节，图像如何变化。在Meta分享的示例中，一个用户输入了提示:“想象一场在火星上进行的足球比赛。这一新功能是Meta在其所有应用程序中推出AI功能的一部分，包括WhatsApp、Instagram、Facebook和Messenger。

WhatsApp Meta AI图像生成
CertiK与OKX合作升级，共同构建全方位安全框架

4月19日，Web3.0头部安全审计公司CertiK官方宣布，已与全球知名数字资产交易平台OKX达成战略合作，将共同构建全方位安全框架。此次合作覆盖交易所平台、移动端、钱包安全和智能合约审计在内的多个领域，旨在通过探索全面的安全解决方案，增强用户信任和增长，以及共同提升区块链安全标准，促进Web3.0生态的可持续健康发展。CertiK曾发现并协助修复了SUI、Aptos、COSMOS等Layer1区块链和WormHole跨链桥等Web3.0知名项目的高危漏洞，并因发现苹果iOS内核的安全漏洞两次获得苹果公司致谢，2024年2月，CertiK荣获三星移动安全名人堂荣誉，并接连获得包括蚂蚁集团、京东、字节跳动等传统互联网头部公司的公开致谢。
荐北大字节开辟图像生成新范式，超越Sora核心组件DiT，不再预测下一个token

北大和字节联手搞了个大的:提出图像生成新范式，从预测下一个token变成预测下一级分辨率，效果超越Sora核心组件DiffusionTransformer。并且代码开源，短短几天已经揽下1.3k标星，登上GitHub趋势榜。他硕士毕业于浙江大学，目前的研究重点是视觉基础模型、深度生成模型和大语言模型。

图像生成预测分辨率
荐拒绝白人与亚洲人同框，Meta图像生成器的「歧视」，被人挖出来了

在人工智能构筑的世界中，AI有时会像人一样存在着某种偏见或倾向性。比如对于大语言模型言，由于训练数据的影响会不可避免地存在性别偏见、种族刻板印象，等等。对于TheVerge发现的这一现象，有网友分析称，这是Meta在训练的时候没有喂给模型关于这一场景足够的示例。

Meta

今日大家都在搜的词：

热文

3 天
7天

何恺明与MIT合作推出自条件图像生成框架RCG

今日大家都在搜的词：

热文

站长商机