首页 > AI头条  > 正文

字节跳动新突破:Infinity 框架重塑高分辨率图像生成!

2024-12-11 16:27 · 来源: AIbase基地

在图像生成领域,高分辨率和逼真图像的任务一直面临多重挑战,特别是在文本到图像的合成过程中。传统的生成方法大多依赖于扩散模型和变换自回归(VAR)框架。

这些模型虽然能够产生高质量的图像,但需要消耗大量计算资源,这使得它们在实时应用中显得不够灵活。与此同时,VAR 模型在处理离散标记时容易产生累积误差,导致生成的图像细节丢,从而影响图像的真实感。

image.png

为了克服这些不足,字节跳动的研究团队推出了名为 “Infinity” 的全新框架,该框架旨在提升文本到图像合成的效率和质量。

Infinity 通过引入比特级标记替代传统的索引级标记,实现了更细粒度的表示方式,从而显著减少了量化误差并提高了生成图像的真实度。此外,该框架还使用了一个无限词汇分类器(IVC),将标记词汇扩展到2^64,大幅降低了内存和计算需求。

image.png

Infinity 架构主要由三部分组成:一种比特级多尺度量化标记器,将图像特征转化为二进制标记,以计算开销;一种基于变换器的自回归模型,该模型根据文本提示和先前输出预测残差;以及一种自我修正机制,在训练过程中引入随机比特翻转,提高模型对误差的鲁棒性。研究团队利用 LAION 和 OpenImages 等大型数据集进行训练,通过逐步提升图像分辨率,从256×256到1024×102的过程,取得了显著的进展。

经过评估,Infinity 在关键指标上显示出了优秀的性能,其 GenEval 得分为0.,Fréchet Inception Distance(FID)降低至3.48,证明了其在生成速度和质量方面的提升。Infinity 能在0.8秒内生成1024×1024的高分辨率图像,表现出其高效性和可靠性。该系统生成的图像不仅在视觉上真实且细节丰富,还能够准确响应复杂的文本指令,得到了较高的人类偏好评分。

Infinity 的推出标志着高分辨率文本到图像合成领域的新标杆,它通过创新的设计解决了长期存在的可扩展性和细节质量问题,推动了生成 AI 的进一步发展。

论文:https://arxiv.org/abs/2412.04431

划重点:  

🌟 ** 创新框架 Infinity:** 字节跳动推出的 Infinity 框架,通过比特级标记化和无限词汇分类器,大幅提升高分辨率图像生成效率。  

⚡ ** 卓越性能:** Infinity 在关键评估指标上超越了现有模型,能在0.8秒内生成1024×1024的高质量图像。  

🖼️ ** 真实细节与响应能力:** 生成的图像不仅视觉真实,还能精准响应复杂文本提示,表现出高人类偏好评分。

  • 相关推荐
  • 三星年底推出XR新品头显,字节跳动/微美全息加速MR眼镜布局卡位争夺先机

    三星确认将于2023年下半年推出三折折叠智能手机与XR头显组合设备,搭载Android XR系统,配备Micro OLED/OLEDoS显示屏,支持90Hz刷新率和眼动追踪功能。字节跳动旗下PICO公司正开发代号"Project P"的MR头显,直接对标Meta计划2027年推出的旗舰产品"Phoenix"。微美全息(WIMI.US)作为AR领域重要参与者,通过技术研发和生态合作持续强化竞争力。行业分析指出,XR设备正朝着轻量化方向发展,分体式设计可能成为未来主流趋势,市场竞争格局正在重塑。

  • 字节跳动回应筹备“豆包汽车”:纯属谣言

    字节跳动被传计划与旗下火山引擎合作开展"豆包汽车"业务,聚焦智能座舱和智驾两大板块,对标华为鸿蒙智行方案。但火山引擎迅速辟谣,称"豆包汽车"纯属谣言。字节跳动在AI领域布局广泛,推出豆包AI助手、扣子开发平台等多款产品,持续深耕AI技术。虽然短期内不会涉足汽车业务,但其在AI领域的创新突破值得期待。

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • 昇腾赋能三维生成新突破!浙大团队实现跨模态可控3D CAD建模

    浙江大学与魔芯科技团队合作,基于昇腾平台NPU开发了首个三维模型生成算法Img2CAD。该技术突破性地将草图、图片等多模态输入通过Transformer结构高效转化为三维几何信息,无需可微渲染器,完整在NPU上实现训练和推理。研究成果可生成高精度3D模型,直接导入CAD软件编辑,已应用于3D打印、数字制造等领域。项目完成3篇论文,包括1篇中科院1区期刊和2篇CCF-A类会议论文,部分成果实现商业化落地。该技术标志着智能三维内容创作进入"低门槛、高效率、高质量"新阶段,未来将为工业设计、AR/VR等行业提供创新动能。

  • 从线下TOP到私域起步,高端童装1年内把复购率做到46%

    做私域一年内,QIMOO的复购率从30%多提升至46%,私域内单场直播销售额翻了3倍。 作为成长于线下的高端童装设计师品牌,过去十多年,QIMOO在包括北京SKP、万象城、大悦城、蓝色港湾等各城市核心商场陆续开出超100家门店,几乎每家都能做到楼层童装销售额TOP前列。 但正如淇木私域运营总监于海婧所言:“加大线上投入,是整个童装行业的必然走向。” 在商场客流持续下行�

  • 新高考数学挑战重重,《学魁母题清单》为学生点亮高分之路!

    近年来高考改革持续推进,数学科目难度升级、题型创新,让考生倍感压力。学魁榜针对这一变化推出升级版《学魁母题清单》,包含新高考创新题、九省联考真题等权威题源,采用"学、练、查"三册一体设计:讲解册由清北学霸总结经典母题解题方法;练习册提供变式训练;答案册规范答题步骤。教材还融入二维码视频讲解,并适配不同地区教材版本,帮助学生精准把握新高考命题趋势,实现高效提分。

  • 一台100吋高定电视,如何重塑家庭影游画质体验新标杆?

    文章探讨了家庭影音进入内容精品化的新时代。随着4K、HDR成为主流标配,3A游戏画面愈发精美,体育赛事转播更清晰流畅,人们对画质的追求已从"看得清"转向"看得震撼""看得真实"。海信电视U8Q搭载信芯®AI画质芯片H7,实现控光与控色协同,配合超画质U+MiniLED技术,带来旗舰级画质体验。其黑曜屏Ultra采用纳米级低反技术,反射率仅1.28%,178°广视角确保各角度清晰。170Hz原生刷新率可提升至330Hz,为游戏玩家提供丝滑流畅体验。从弦画卷设计到殿堂级音响,U8Q全方位打造旗舰级视听享受,成为追求极致体验用户的理想之选。

  • 曝iPhone 18相机巨变:首发三星全新图像传感器

    据媒体报道,三星在得克萨斯州的一家工厂为即将推出的iPhone生产下一代图像传感器芯片,这标志着三星将会打破索尼在果链一家独大的局面,是苹果历史上的一次重大转变。 爆料称这颗芯片是三层堆叠图像传感器,通过垂直堆叠多个传感器层,能实现更高的像素密度和更出色的暗光性能,堆叠传感器架构还能提高读取速度、降低功耗并提升动态范围,这种制造工艺尚未实现

  • 润百颜玻玻——高浓度HA突破“细胞级水润”边界,定义水光针新标准!

    文章概述:水光针市场面临三大痛点:HA含量不足导致效果差、大分子渗透难致水分留存率低、无麻配方引发疼痛。润百颜玻玻通过三大创新技术突破行业瓶颈:1)30mg/mL超高浓度HA(市面III类械最高含量),单支可补充1964mg真皮水分;2)激活AQP3水通道蛋白,实现细胞级智能补水,临床验证使肌肤水润度提升35%;3)含0.3%利多卡因的无痛配方,显著降低注射疼痛,恢复期缩短。该产品标志着水光针从"表层浸润"迈向"细胞修护"新阶段,重新定义有效补水标准,为消费者带来"细胞喝饱水,舒适零负担"的美肤体验。

  • 真我GT8 Pro渲染图曝光 徐起:不是大矩阵 大家放心

    今日,真我GT8 Pro渲染图在网上曝光,大矩阵设计的后摄模组引发网友讨论。 今天下午,真我realme副总裁、全球营销总裁、中国区总裁徐起微博发文称:不是大矩阵,大家放心。” 据了解,真我GT8系列将在10月发布,推出真我GT8和真我GT8 Pro。

今日大家都在搜的词: