字节跳动新突破：Infinity 框架重塑高分辨率图像生成！

2024-12-11 16:27 · 来源： AIbase基地

在图像生成领域，高分辨率和逼真图像的任务一直面临多重挑战，特别是在文本到图像的合成过程中。传统的生成方法大多依赖于扩散模型和变换自回归（VAR）框架。

这些模型虽然能够产生高质量的图像，但需要消耗大量计算资源，这使得它们在实时应用中显得不够灵活。与此同时，VAR 模型在处理离散标记时容易产生累积误差，导致生成的图像细节丢，从而影响图像的真实感。

为了克服这些不足，字节跳动的研究团队推出了名为 “Infinity” 的全新框架，该框架旨在提升文本到图像合成的效率和质量。

Infinity 通过引入比特级标记替代传统的索引级标记，实现了更细粒度的表示方式，从而显著减少了量化误差并提高了生成图像的真实度。此外，该框架还使用了一个无限词汇分类器（IVC），将标记词汇扩展到2^64，大幅降低了内存和计算需求。

Infinity 架构主要由三部分组成:一种比特级多尺度量化标记器，将图像特征转化为二进制标记，以计算开销;一种基于变换器的自回归模型，该模型根据文本提示和先前输出预测残差;以及一种自我修正机制，在训练过程中引入随机比特翻转，提高模型对误差的鲁棒性。研究团队利用 LAION 和 OpenImages 等大型数据集进行训练，通过逐步提升图像分辨率，从256×256到1024×102的过程，取得了显著的进展。

经过评估，Infinity 在关键指标上显示出了优秀的性能，其 GenEval 得分为0.，Fréchet Inception Distance（FID）降低至3.48，证明了其在生成速度和质量方面的提升。Infinity 能在0.8秒内生成1024×1024的高分辨率图像，表现出其高效性和可靠性。该系统生成的图像不仅在视觉上真实且细节丰富，还能够准确响应复杂的文本指令，得到了较高的人类偏好评分。

Infinity 的推出标志着高分辨率文本到图像合成领域的新标杆，它通过创新的设计解决了长期存在的可扩展性和细节质量问题，推动了生成 AI 的进一步发展。

论文:https://arxiv.org/abs/2412.04431

划重点:
🌟 ** 创新框架 Infinity:** 字节跳动推出的 Infinity 框架，通过比特级标记化和无限词汇分类器，大幅提升高分辨率图像生成效率。
⚡ ** 卓越性能:** Infinity 在关键评估指标上超越了现有模型，能在0.8秒内生成1024×1024的高质量图像。
🖼️ ** 真实细节与响应能力:** 生成的图像不仅视觉真实，还能精准响应复杂文本提示，表现出高人类偏好评分。

相关推荐

三星年底推出XR新品头显，字节跳动/微美全息加速MR眼镜布局卡位争夺先机

三星确认将于2023年下半年推出三折折叠智能手机与XR头显组合设备，搭载Android XR系统，配备Micro OLED/OLEDoS显示屏，支持90Hz刷新率和眼动追踪功能。字节跳动旗下PICO公司正开发代号"Project P"的MR头显，直接对标Meta计划2027年推出的旗舰产品"Phoenix"。微美全息(WIMI.US)作为AR领域重要参与者，通过技术研发和生态合作持续强化竞争力。行业分析指出，XR设备正朝着轻量化方向发展，分体式设计可能成为未来主流趋势，市场竞争格局正在重塑。
字节跳动回应筹备“豆包汽车”：纯属谣言

字节跳动被传计划与旗下火山引擎合作开展"豆包汽车"业务，聚焦智能座舱和智驾两大板块，对标华为鸿蒙智行方案。但火山引擎迅速辟谣，称"豆包汽车"纯属谣言。字节跳动在AI领域布局广泛，推出豆包AI助手、扣子开发平台等多款产品，持续深耕AI技术。虽然短期内不会涉足汽车业务，但其在AI领域的创新突破值得期待。

字节跳动豆包汽车火山引擎
荐AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-banana发布；字节开源Agent专用模型 M3-Agent-Control

本文介绍了AI领域最新动态：1)腾讯开源Hunyuan-GameCraft框架，可快速生成高质量游戏视频；2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext；3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型；4)Kimi将推出PPT生成功能；5)阿里1688将上线"诚信通AI版"会员服务；6)苹果智能家居中心推迟至2026年发布；7)万兴科技接入GPT-5；8)全球AI独角兽达498家，总估值2.7万亿美元；9)谷歌为Slides和

AI 游戏视频生成腾讯混元
昇腾赋能三维生成新突破！浙大团队实现跨模态可控3D CAD建模

浙江大学与魔芯科技团队合作，基于昇腾平台NPU开发了首个三维模型生成算法Img2CAD。该技术突破性地将草图、图片等多模态输入通过Transformer结构高效转化为三维几何信息，无需可微渲染器，完整在NPU上实现训练和推理。研究成果可生成高精度3D模型，直接导入CAD软件编辑，已应用于3D打印、数字制造等领域。项目完成3篇论文，包括1篇中科院1区期刊和2篇CCF-A类会议论文，部分成果实现商业化落地。该技术标志着智能三维内容创作进入"低门槛、高效率、高质量"新阶段，未来将为工业设计、AR/VR等行业提供创新动能。

三维内容创作虚拟现实技术元宇宙发展
从线下TOP到私域起步，高端童装1年内把复购率做到46%

做私域一年内，QIMOO的复购率从30%多提升至46%，私域内单场直播销售额翻了3倍。作为成长于线下的高端童装设计师品牌，过去十多年，QIMOO在包括北京SKP、万象城、大悦城、蓝色港湾等各城市核心商场陆续开出超100家门店，几乎每家都能做到楼层童装销售额TOP前列。但正如淇木私域运营总监于海婧所言:“加大线上投入，是整个童装行业的必然走向。” 在商场客流持续下行�

私域运营复购率提升直播销售额
新高考数学挑战重重，《学魁母题清单》为学生点亮高分之路！

近年来高考改革持续推进，数学科目难度升级、题型创新，让考生倍感压力。学魁榜针对这一变化推出升级版《学魁母题清单》，包含新高考创新题、九省联考真题等权威题源，采用"学、练、查"三册一体设计：讲解册由清北学霸总结经典母题解题方法；练习册提供变式训练；答案册规范答题步骤。教材还融入二维码视频讲解，并适配不同地区教材版本，帮助学生精准把握新高考命题趋势，实现高效提分。

新高考改革数学难度题型创新
一台100吋高定电视，如何重塑家庭影游画质体验新标杆？

文章探讨了家庭影音进入内容精品化的新时代。随着4K、HDR成为主流标配，3A游戏画面愈发精美，体育赛事转播更清晰流畅，人们对画质的追求已从"看得清"转向"看得震撼""看得真实"。海信电视U8Q搭载信芯®AI画质芯片H7，实现控光与控色协同，配合超画质U+MiniLED技术，带来旗舰级画质体验。其黑曜屏Ultra采用纳米级低反技术，反射率仅1.28%，178°广视角确保各角度清晰。170Hz原生刷新率可提升至330Hz，为游戏玩家提供丝滑流畅体验。从弦画卷设计到殿堂级音响，U8Q全方位打造旗舰级视听享受，成为追求极致体验用户的理想之选。

家庭影音 4K HDR
曝iPhone 18相机巨变：首发三星全新图像传感器

据媒体报道，三星在得克萨斯州的一家工厂为即将推出的iPhone生产下一代图像传感器芯片，这标志着三星将会打破索尼在果链一家独大的局面，是苹果历史上的一次重大转变。爆料称这颗芯片是三层堆叠图像传感器，通过垂直堆叠多个传感器层，能实现更高的像素密度和更出色的暗光性能，堆叠传感器架构还能提高读取速度、降低功耗并提升动态范围，这种制造工艺尚未实现

三星 iPhone 图像传感器
润百颜玻玻——高浓度HA突破“细胞级水润”边界，定义水光针新标准！

文章概述：水光针市场面临三大痛点：HA含量不足导致效果差、大分子渗透难致水分留存率低、无麻配方引发疼痛。润百颜玻玻通过三大创新技术突破行业瓶颈：1）30mg/mL超高浓度HA（市面III类械最高含量），单支可补充1964mg真皮水分；2）激活AQP3水通道蛋白，实现细胞级智能补水，临床验证使肌肤水润度提升35%；3）含0.3%利多卡因的无痛配方，显著降低注射疼痛，恢复期缩短。该产品标志着水光针从"表层浸润"迈向"细胞修护"新阶段，重新定义有效补水标准，为消费者带来"细胞喝饱水，舒适零负担"的美肤体验。

轻医美水光针润百颜玻玻
真我GT8 Pro渲染图曝光徐起：不是大矩阵大家放心

今日，真我GT8 Pro渲染图在网上曝光，大矩阵设计的后摄模组引发网友讨论。今天下午，真我realme副总裁、全球营销总裁、中国区总裁徐起微博发文称：不是大矩阵，大家放心。” 据了解，真我GT8系列将在10月发布，推出真我GT8和真我GT8 Pro。

真我GT8 Pro 渲染图曝光

今日大家都在搜的词：

热文

3 天
7天

字节跳动新突破：Infinity 框架重塑高分辨率图像生成！

三星年底推出XR新品头显，字节跳动/微美全息加速MR眼镜布局卡位争夺先机

字节跳动回应筹备“豆包汽车”：纯属谣言

荐AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-banana发布；字节开源Agent专用模型 M3-Agent-Control

昇腾赋能三维生成新突破！浙大团队实现跨模态可控3D CAD建模

从线下TOP到私域起步，高端童装1年内把复购率做到46%

新高考数学挑战重重，《学魁母题清单》为学生点亮高分之路！

一台100吋高定电视，如何重塑家庭影游画质体验新标杆？

曝iPhone 18相机巨变：首发三星全新图像传感器

润百颜玻玻——高浓度HA突破“细胞级水润”边界，定义水光针新标准！

真我GT8 Pro渲染图曝光徐起：不是大矩阵大家放心

今日大家都在搜的词：

热文

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

华为MatePad Air新款官宣8月15日发布

REDMI Note 15 Pro系列官宣下周发布

华为MatePad Air 12英寸2025发布：售价2799元起

微信聊天可以引用部分文字了！还可用表情包回复

AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型M

华为MatePad 11.5 S 2025发布：预装鸿蒙5 首发售价2099元起

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

iPhone17Pro最新外观曝光：苹果调整天线布局

AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线A

全球首款女团机器人10580元拍出接入京东Joy Inside智能体

AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

REDMI Note 15 Pro系列官宣本月发布

京东养车50亿补贴更名震骨价号称补贴不「唬」

雷军发起小米YU7版本更名投票称小米YU7标准版绝非丐版

REDMI Turbo 5已备案：首发天玑8500处理器

站长商机