首页 > 业界 > 关键词  > 图像生成最新资讯  > 正文

北大发布新图像生成框架VAR 推理速度提高20倍

2024-04-08 18:01 · 稿源:站长之家

站长之家(ChinaZ.com)4月8日 消息:北京大学最近发布了一种新的图像生成框架,名为VAR。这一突破性的技术首次使GPT风格的自回归模型在图像生成上超越了扩散transformer,同时展现出了与大语言模型观察到的类似Scaling laws的规律。

VAR,即视觉自回归模型,是一种新的图像生成范式。它将自回归学习重新定义为从粗到细的"下一尺度预测"或"下一分辨率预测",这与标准的光栅扫描"下一token预测"有所不同。这种简单直观的方法让自回归transformer能够快速学习视觉分布并具有良好的泛化能力。

image.png

项目地址:https://github.com/FoundationVision/VAR

在ImageNet256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。这一结果实证验证了VAR在多个维度包括图像质量、推理速度、数据效率和可扩展性上都优于Diffusion Transformer。

随着VAR模型的扩大,它展现出了与大语言模型观察到的类似幂律缩放规律,线性相关系数接近-0.998,有力证明了这一点。VAR进一步展示了在下游任务如图像修复、外推和编辑上的零样本泛化能力。

这些结果表明,VAR初步模拟了大语言模型的两个重要特性:缩放规律和零样本泛化。研究人员已经公开了所有模型和代码,以促进AR/VAR模型在视觉生成和统一学习中的探索。

VAR算法为计算机视觉中的自回归算法设计提供了新的见解,有望推动这一领域的进一步发展。

举报

  • 相关推荐
  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 瑞幸又将联名的门槛提高了!

    联名,瑞幸在行! 这次,瑞幸又将联名玩出了新高度,一场「联名+结婚」,让半个品牌圈都“参与”了,随礼、新郎不是我、P新的结婚证……玩得不亦乐乎。 原本,联名被称为是品牌之间的“抱团取暖”,这次瑞幸玩了一把颇有趣味性的营销,为联名增加了喜感与乐趣。

  • 高德地图上线AR打卡功能:实现3D立体打卡 生成专属打卡视频

    阿里巴巴旗下高德地图正式上线创新AR打卡功能,通过深度整合AI技术与地图服务,为用户带来虚实融合的沉浸式打卡体验,无缝连接现实世界。 该功能依托前沿AI空间融合技术,突破传统二维地图限制,首创3D立体打卡。用户打开最新版高德地图App,点击右上角 ”号即可轻松开启AR之旅。 支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式,完成打卡后系统将自动生成并

  • 墨刀AI生成原型图,产品设计快人一步

    国内原型设计平台墨刀发布"AI生成原型图2.0"功能,30秒即可生成可编辑原型图,大幅提升产品设计效率。该功能通过AI技术解决传统原型设计周期长、效率低、修改繁琐等痛点,支持文字描述或图片上传自动生成高保真原型图,并可二次编辑优化。这一创新不仅标志着墨刀AI能力的全面升级,更代表产品设计方式的一次革新,显著加快产品迭代速度。未来,AI原型设计有望成为行业标配,助力企业更快响应市场需求,提升产品竞争力。

  • 东北大米的“超级芯片” 小禾清风“星粳10号”实现高质高产兼得

    黑龙江农业厅审定通过193个水稻新品种,其中"星粳10号"表现突出,亩产达598公斤,食味值居前三甲。该品种由"小禾清风"品牌采用,兼具高产与优质特性,打破"优质米难高产"行业瓶颈。"星粳10号"依托"星粳"系列卓越基因,实现产量与口感协同突破,亩产远超行业标准,整精米率达68.2%,食味综合评分90分,具有软硬适中、弹糯兼备的绝佳口感。品牌通过"良种+良法"种植方案和"耘稻一号"免追肥技术,构建从育种到餐桌的全产业链质量控制体系,确保大米营养与风味。目前已在沈阳建立体验馆,与百余家商超、餐饮品牌合作,形成区域消费服务网络。

  • 女生高考462分 超北大录取分150多:体育领域成绩优异

    ​6月25日,四川2025年高考成绩正式放榜。在宜宾市东辰学校,一个班级的高考成绩格外引人注目:该班23名学生中,竟有22人分数超过600分,成绩十分亮眼。然而,在这份耀眼的成绩单中,一名叫刘峡君的女生却以462分的成绩成为班级里的“显眼包”。 面对这一看似“反差”的情况,班主任给出了令人意想不到的解释。原来,刘峡君是一名国家级运动健将,在体育领域有着出色

  • 《彩虹六号》国服启宣发布会落地2025BW,2026春季开启首测

    7月13日BW2025现场,《彩虹六号》"薪火杯"社区邀请赛落幕,AG战队夺冠。赛事为期两周,全球创意总监Alex与国服制作人梁嘉升宣布国服将于2026年春节前后开启测试。国服承诺保持原汁原味体验,重点升级网络优化、反作弊和基础服务:部署多区域服务器节点保证流畅度;引入ACE防护方案打击外挂;保留原生好友系统并支持跨平台组队。针对国际服回归玩家提供专属标识和福利,同时启动创作者扶持计划。7月11日已开启国服预约,参与可获定制卡背等奖励。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�