首页 > 业界 > 关键词  > 图像生成最新资讯  > 正文

北大发布新图像生成框架VAR 推理速度提高20倍

2024-04-08 18:01 · 稿源:站长之家

站长之家(ChinaZ.com)4月8日 消息:北京大学最近发布了一种新的图像生成框架,名为VAR。这一突破性的技术首次使GPT风格的自回归模型在图像生成上超越了扩散transformer,同时展现出了与大语言模型观察到的类似Scaling laws的规律。

VAR,即视觉自回归模型,是一种新的图像生成范式。它将自回归学习重新定义为从粗到细的"下一尺度预测"或"下一分辨率预测",这与标准的光栅扫描"下一token预测"有所不同。这种简单直观的方法让自回归transformer能够快速学习视觉分布并具有良好的泛化能力。

image.png

项目地址:https://github.com/FoundationVision/VAR

在ImageNet256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。这一结果实证验证了VAR在多个维度包括图像质量、推理速度、数据效率和可扩展性上都优于Diffusion Transformer。

随着VAR模型的扩大,它展现出了与大语言模型观察到的类似幂律缩放规律,线性相关系数接近-0.998,有力证明了这一点。VAR进一步展示了在下游任务如图像修复、外推和编辑上的零样本泛化能力。

这些结果表明,VAR初步模拟了大语言模型的两个重要特性:缩放规律和零样本泛化。研究人员已经公开了所有模型和代码,以促进AR/VAR模型在视觉生成和统一学习中的探索。

VAR算法为计算机视觉中的自回归算法设计提供了新的见解,有望推动这一领域的进一步发展。

举报

  • 相关推荐
  • Nano Banana更像是AI图像领域的DeepSeek

    这是《窄播Weekly》的第66期,本期我们关注的商业动态是:Google最新的AI图像生成模型Nano Banana,可能会给AI图像领域带来一场应用大爆炸。 去年这个时候,我想把照片中人物手里拿的玩具火车换成玩具飞机,还需要给玩具火车做出精细标记,找到干净的玩具飞机图片,告诉AI将其替换成另一张图里的飞机。我花费一个小时,多番尝试下来,飞机会变形,人物的手会消失,最后的�

  • 视觉中国「灵感拓展」功能完成生成式AI服务上线登记

    视觉中国旗下中华易美视觉科技公司推出的“灵感拓展”功能已通过江苏省网信办生成式人工智能服务上线登记,正式在VCG.com面向用户开放。该功能基于国产大模型,结合丰富内容资源,通过AI技术为创作者提供灵感和方向,提升创意产出效率与质量。用户可在搜索时获得智能拆解的多维度创作建议,帮助精准定位需求,突破创作瓶颈,优化素材匹配效率。该功能是视觉中国在“AI智能+内容数据+应用场景”战略下的重要成果,目前已面向合作客户开放。

  • AI日报:腾讯开源图像模型HunyuanImage2.1;​爱诗科技获6000万美元融资;​Freepik上线豆包Seedream4.0图像模型

    本文汇总了AI领域的最新动态:腾讯升级混元生图模型至2.1版,支持2K分辨率与中英文输入;爱诗科技获阿里领投6000万美元融资,聚焦AI视频生成;Freepik上线Seedream 4.0图像模型,提供高分辨率生成选项;阿里千问新模型通过MoE架构提升推理效率10倍;微软在Office 365中集成Anthropic技术,调整AI供应商策略;首款AI Agent浏览器Fellou CE发布,简化工作流程;清华团队开源GUAVA技术,实现

  • AI日报:接入MJ!夸克发布造点AI;Wan2.5-Preview发布;可灵推最新视频生成模型可灵2.5Turbo

    近日AI领域迎来多项重要更新:阿里夸克发布AI创作平台“造点”,整合通义万相Wan2.5与Midjourney V7,支持音画同步视频生成;Wan2.5-Preview实现多模态输入与电影级视频同步生成,提升视觉创作能力;可灵AI推出视频生成模型2.5Turbo并降价30%,降低使用门槛;阿里通义推出Qwen3-ASR-Toolkit,实现小时级音视频转录;谷歌相册AI编辑功能扩展至安卓用户,支持语音修图;谷歌Mixboard工具助力创意设计,生成情绪板;Qwen发布Qwen3-Max模型,在代码生成与智能体能力表现突出;Figma推出MCP服务器,实现设计到代码的一键转换,提升开发效率。

  • 基于通义万相 美图多款APP上线全新动漫特效、AI变身等视频生成功能

    今日,美图公司旗下美图秀秀、RoboNeo、Wink和开拍等多款产品,推出全新动漫特效、AI变身等视频生成功能。 据悉,新功能基于通义万相系列模型进行深度开发与训练,为美图的全球用户提供全新的创作体验。 近年来,美图加速布局生产力场景,不仅推出面向企业的AI算法服务和解决方案,旗下消费级产品也在快速集成大模型。 去年6月,美图就开始和阿里展开大模型合作。

  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包App可免费体验

    字节跳动Seed团队推出豆包图像创作模型Seedream4.0,支持文生图、图像编辑及多图参考等功能,在专业评测中达到业界领先水平。该模型已上线豆包App、即梦AI等平台供用户免费体验,并通过火山引擎开放给企业客户。Seedream4.0具备多模态创意能力,可生成4K分辨率商用图像,适用于教育、电商、广告设计等场景。团队表示将持续探索实时交互生成体验,深度融合多模态推理与世界知识。

  • 免费生成10秒高清视频!通义App接入通义万相2.5

    在2025云栖大会上,阿里发布通义万相Wan2.5 Preview系列模型,覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步,可生成匹配画面的人声、音效和BGM,时长从5秒提升至10秒,支持24帧/秒的1080P高清输出,降低影视级创作门槛。模型指令遵循能力增强,支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频,每日免费使用15次,支持导出无水印视频。同时,图像生成能力全面升级,可生成中英文字符和图表,支持图像编辑功能,一句话即可完成P图。

  • 让搜索“一步到位”! 快手提出端到端生成式搜索方案OneSearch

    当前电商平台普遍采用“召回、粗排、精排”级联式搜索架构,但存在商品描述混乱、相关性差、冷启动难等痛点。快手提出业界首个工业级端到端生成式搜索框架OneSearch,集成三大创新模块:关键词增强量化编码(KHQE)提升商品特征建模能力,多视角用户行为序列注入策略实现精准偏好捕捉,偏好感知奖励系统(PARS)优化排序多样性。实际部署后,订单量提升3.22%,买家数增长2.4%,在线推理成本降低75.4%,冷启动场景表现尤为突出。该系统标志着生成式模型在大规模工业场景中首次完整替代传统搜索链路,为电商搜索技术发展指明方向。

  • 超越所见,开启银幕万象 佳能发布搭载7K全画幅图像感应器、支持片门全开的数字电影摄影机EOS C50

    佳能中国公司将于2025年11月推出EOS C50数字电影摄影机,搭载全新7K全画幅传感器和DIGIC DV7处理器,支持RF卡口。该机首次在CINEMA EOS系列中配备片门全开记录模式,支持竖拍裁切同步录制,具备双卡槽设计,可实现最高7K60P RAW录制。机身仅重670克,配备全像素双核自动对焦系统,支持多种视频格式和网络功能,适用于短片、纪录片、直播等多种创作场景。

  • 从“能导航”到“会思考”,腾讯地图AI新品即将发布

    2025年腾讯全球数字生态大会将于9月16-17日在深圳举办。大会重点包括腾讯地图将发布时空智能开放平台GAIA,聚焦AI+地图战略价值,通过开放生态连接政企资源,推动行业数字化转型。平台结合LBS技术与AI大模型,深度挖掘时空数据价值,为企业提供决策支持。小红书、麦当劳等企业代表将分享实战案例,展示地图技术在零售、出行等领域的应用潜力。

今日大家都在搜的词: