首页 > 业界 > 关键词  > 图像生成最新资讯  > 正文

北大发布新图像生成框架VAR 推理速度提高20倍

2024-04-08 18:01 · 稿源:站长之家

站长之家(ChinaZ.com)4月8日 消息:北京大学最近发布了一种新的图像生成框架,名为VAR。这一突破性的技术首次使GPT风格的自回归模型在图像生成上超越了扩散transformer,同时展现出了与大语言模型观察到的类似Scaling laws的规律。

VAR,即视觉自回归模型,是一种新的图像生成范式。它将自回归学习重新定义为从粗到细的"下一尺度预测"或"下一分辨率预测",这与标准的光栅扫描"下一token预测"有所不同。这种简单直观的方法让自回归transformer能够快速学习视觉分布并具有良好的泛化能力。

image.png

项目地址:https://github.com/FoundationVision/VAR

在ImageNet256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。这一结果实证验证了VAR在多个维度包括图像质量、推理速度、数据效率和可扩展性上都优于Diffusion Transformer。

随着VAR模型的扩大,它展现出了与大语言模型观察到的类似幂律缩放规律,线性相关系数接近-0.998,有力证明了这一点。VAR进一步展示了在下游任务如图像修复、外推和编辑上的零样本泛化能力。

这些结果表明,VAR初步模拟了大语言模型的两个重要特性:缩放规律和零样本泛化。研究人员已经公开了所有模型和代码,以促进AR/VAR模型在视觉生成和统一学习中的探索。

VAR算法为计算机视觉中的自回归算法设计提供了新的见解,有望推动这一领域的进一步发展。

举报

  • 相关推荐
  • 某平台多部AI生成短剧换脸易烊千玺 后者工作室发声明将追责

    近段时间以来,AI侵权事件逐渐多发,除了盗用声音外,甚至还出现盗用形象的事件。 近日,某短剧平台的多部AI作品被曝换脸知名演员易祥千玺,针对此事,后者工作室发布声明: 近日,我工作室发现部分网络平台传播擅自使用易烊千玺先生肖像等生成的AI剧集,易烊千玺先生未曾参演相关剧集,也未授权第三方将其肖像等进行AI合成。

  • 3天生成,全网获赞180万,抖音如何托举AI创作者的“电影梦”?

    ​“AI就该拍这样的片子”,“这才是AI的意义”。 这些评论,来自一部名为《纸手机》的清明节AI短片。 视频中,一个小男孩攥着皱巴巴的15块钱,站在纸扎店柜台前,想买一部能打视频电话的手机。店里的手机动辄六七十块钱,老板看着男孩手里仅有的15元,只好撕下一个纸板,卖给小男孩一部自己“手搓”的纸手机。

  • 京东开源图像模型JoyAI-Image-Edit:达到世界一流水平

    京东探索研究院近日开源了自研的JoyAI-Image-Edit图像模型,其核心突破在于能理解图像的三维空间结构,解决了传统AI修图空间逻辑混乱的问题。该模型具备三大空间编辑能力:视角变换、空间漫游和物体空间关系操控,并兼容15类通用编辑功能。应用场景广泛,尤其在具身智能领域,可为机器人理解世界提供关键底层能力。京东近期在AI领域动作频频,持续推动AI与产业深度融合。

  • 爱诗科技PixVerse V6 正式发布,AI视频生成迈向“真实世界模拟”

    爱诗科技发布新一代视频生成模型PixVerse V6,在保持秒级生成速度基础上,全面升级人物真实感、复杂运动表现、物理模拟及声画协同能力,最长可生成15秒视频。该模型在AI视频生成榜单中位列全球第二,显示其领先水平。V6重点提升视频的真实世界模拟能力,优化人物细节表现,强化复杂场景处理,增强物理属性模拟,并优化镜头连续性。同时降低创作门槛,用户可通过简洁描述生成复杂镜头效果。目前PixVerse V6已在拍我AI Web端、App端及API平台上线,并推出限时优惠活动。

  • 谷歌Gemini再升级!解锁新玩法:输入提示词即可生成交互式3D模型

    近日,谷歌Gemini AI推出最新升级,用户只需输入提示词,就能让聊天机器人生成交互式3D模型和实时模拟。 这一新功能支持多种互动操作,包括旋转模型、拖动滑块调整参数或输入数值改变模拟结果。 例如,用户询问月球绕地球轨道时,Gemini会创建一个3D模型,并提供轨道速度滑块、路径线切换开关以及暂停按钮。

  • AI生成时代,湃科控股以合规筑牢财经信息“安全底座”

    今年全国两会期间,人工智能内容审核与治理成为代表委员关注的热点。多位代表呼吁加快人工智能专门立法,建立覆盖创作、传播、评价的全链条治理体系,为AI内容审核提供明确政策指引。随着AI大模型深度融入内容生产与信息传播,建立完善的审核机制与合规治理体系,已成为人工智能产业行稳致远的关键保障。

  • AI日报:Luma AI发布Uni-1图像模型;阿里达摩院发布玄铁C950;美团龙猫发布开源数学定理证明模型

    本期AI日报聚焦多项技术突破:Luma AI发布Uni-1图像模型,支持文本与像素同步生成;美团开源数学定理证明模型LongCat-Flash-Prover;阿里玄铁C950处理器刷新RISC-V性能纪录;iPhone 17 Pro成功本地运行4000亿参数大模型;Claude助手升级,可控制用户电脑;西湖大学发布全球首个机器人“通用小脑”泰坦o1;OpenAI申请将ChatGPT纳入安卓默认搜索引擎选项;国家数据局正式将“Token”定名为“词元”,规范大模型术语标准。

  • 智谱发布GLM-5V-Turbo模型:编程告别纯文本 一张图片就能生成代码

    智谱AI于4月2日发布GLM-5V-Turbo多模态编程模型,专为视觉编程打造。该模型深度融合视觉与文本能力,能看懂设计稿、截图、网页界面并生成可运行代码,实现“看得懂画面、写得出代码”。其三大核心特性包括:原生多模态编程基座,支持图片、视频、设计稿等多模态输入;兼顾视觉与编程能力,在多模态编程、GUI+Agent等基准上表现领先;深度适配Claude Code与龙蜥场景,可实现环境规划与动作执行的完整闭环。实测显示,该模型在设计稿还原、视觉代码生成等任务中表现优异,在AndroidWorld、WebVoyager等GUI操控测试中同样突出,纯文本编程能力稳定。目前已落地图像即代码、龙蜥视觉赋能等典型场景。

  • 阿里发布Wan2.7-Video视频生成模型!从演迈向导 聚焦创作全链路

    阿里巴巴今日正式发布Wan2.7-Video视频生成系列模型,涵盖文生视频、图生视频、参考生视频和视频编辑四大模型。 新模型拥有全面的创作控制力,将AI的能力从单一素材生成扩至创作全链路,从演”迈向导”。

  • 智谱,大力出AI

    智谱和MiniMax的两份财报共同说明了一个问题:国产大模型上市是起点,而非终点。 一向以对标OpenAI为荣的智谱,在昨晚业绩会上180度大转弯,重新给自己贴上了标签——“中国的Anthropic”。 原因无他,一张资产报表揭露了智谱上市的真相。截至2025年末,智谱负债净额高达81.1亿元,已经陷入了资不抵债的境况,若无上市注资,生存都可能成为问题。从这个意义上来说,年初的

今日大家都在搜的词: