北大字节开辟图像生成新范式，超越Sora核心组件DiT，不再预测下一个token

2024-04-16 08:45 · 稿源：量子位公众号

北大和字节联手搞了个大的:提出图像生成新范式，从预测下一个token变成预测下一级分辨率，效果超越Sora核心组件Diffusion Transformer（DiT）。并且代码开源，短短几天已经揽下1.3k标星，登上GitHub趋势榜。具体是个什么效果?实验数据上，这个名为VAR（Visual Autoregressive Mod

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

本文汇总了近期AI领域的重要动态：1)通义千问发布Qwen3-Embedding系列模型，在多语言文本处理表现优异；2)字节跳动推出图像编辑模型SeedEdit3.0，提升细节保持能力；3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha；4)Anthropic推出面向国家安全的Claude Gov模型；5)可灵AI月收入连续两月超1亿元；6)Meta公布智能眼镜Aria Gen2技术细节；7)爱诗科技上线AI视频工具"拍我AI"；8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

人工智能深度学习文本处理
Reddit 起诉 Anthropic，称其未支付AI训练数据费用

OpenAI 首席执行官山姆·奥特曼（Sam Altman）持有 Reddit 8.7% 的股份，是该公司第三大股东，并曾是 Reddit 董事会成员……

Reddit Anthropic Reddit起诉Anthropic
荐AI日报：阿里通义推Qwen-TTS模型；Cursor已支持网页和手机端；字节发布图像合成技术XVerse

【AI日报】今日AI领域7大突破：1）阿里通义Qwen-TTS实现方言语音合成重大突破；2）Cursor发布Web版AI编程工具；3）字节XVerse技术实现多对象精准图像生成；4）NoteGen跨平台AI笔记工具革新知识管理；5）ManimML动画库可视化Transformer架构；6）TEN+Agent开源语音交互技术降低延迟；7）Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

人工智能语音合成 Qwen-TTS
100%签约！优刻得加码乌兰察布“Token之都”建设

6月初，优刻得在乌兰察布智算中心B栋约2300个机柜正式启动交付，目前所有客户已完成签约，机柜资源被全面抢订。B栋主要服务大型通信设备厂商，重点聚焦AI大模型训练推理场景，平均设计功率达12kW，满足大模型训练等高算力需求。依托当地充沛绿电、优惠电价等优势，乌兰察布正发展成为全国重要大数据产业聚集区。优刻得作为代表企业，在当地自建14万平方米智算中心，可容纳12000个机柜，持续为AI训练、智能驾驶等领域提供算力支持。乌兰察布正加快从"能源输出地"向"AI生产力输出地"转型，打造特色"Token之都"。优刻得将持续推进AI智算资源布局，助力当地产业升级。

优刻得乌兰察布智算中心
科大讯飞最新发布！打造下一代智能交互新范式

2025年6月12日，科大讯飞在深圳举办“交互领航智启新章”发布会，重磅发布AIUI、机器人超脑等四大平台及十大场景方案，展示百款创新产品，推动AI从通用向垂直落地。讯飞生态已覆盖1152万开发者，全球化布局加速，开启智能交互新纪元。

科大讯飞智能交互机器人超脑
字节跳动公布核心人才观称用人看潜力不看资历

昨日，字节跳动公布六大人才观。字节跳动表示，自创业之初便坚信人才是公司成功的关键要素，秉持“和优秀的人，做有挑战的事”的理念吸引众多人才加入。公司认为，随着业务复杂度提升，保持优秀人才密度大于业务复杂度是组织有效运行的关键，更倾向于通过优秀人才的创新意愿和能力来应对挑战，而非单纯依赖增加规则和管理措施。字节跳动鼓励人才在工作中大�

字节跳动人才观创新能力
必应引入OpenAI的Sora视频生成器，完全免费使用

微软表示：“Bing 视频生成器体现了我们让 AI 视频创作变得全民可及的努力。我们相信，创造力应当轻松且人人可用，从而助力你的探索与表达。”

必应搜索微软搜索引擎 Sora视频模型
华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

6月20日，华为发布盘古大模型5.5，五大基础模型全面升级。该模型采用业界首创的Triplet+Transformer统一预训练架构，能跨行业处理表格数据、时间序列数据和图片数据，显著提升预测精度和泛化能力。已在水泥、钢铁、电解铝、供热等多个工业场景落地应用：海螺水泥实现熟料强度预测，宝武钢铁高炉出铁温度合格率超90%，云南铝业年省电2600万度，天津供热能耗降低10%。模型聚焦工业领域，通过工艺优化和系统寻优，助力企业降本增效，推动行业智能化转型。

华为盘古大模型云计算
AI时代的营销答卷：淘宝天下摘得TopDigital桂冠

淘宝天下凭借AI技术在营销领域的创新实践，在第十三届TopDigital创新营销盛典上斩获两项大奖。其获奖案例《淘宝蛇年"一起上春晚"云参演证互动传播》通过AIGC技术生成个性化"云参演证"，结合明星联动和裂变式传播策略，实现超45亿曝光量，累计生成1.18亿张参演证，重塑了传统春节文化互动模式。同时，与神州租车合作的小米SU7 Ultra上新营销案例，通过头部KOL传播和社交化内容裂变，达成2.36亿+曝光量，获"社会化营销"铜奖。淘宝天下已布局AI驱动的全链路营销解决方案"淘天智家平台"，支持从创意生成到多媒介内容生产的全流程，持续推动数字营销创新。

人工智能创意生产用户洞察
中公教育&天猫图书联名打造准化备考方案重塑行业服务范式

6月27日，中公教育与天猫图书联合推出公务员考试和教师资格考试定制化备考套装。活动期间（6月27日-7月31日）享10%直降优惠及专属赠品，产品覆盖教材、课程、服务全链条。重点产品包括：2025新版教资笔试套装（含7-8册图书+200+课时课程）、2026国考《行测必做5000题》新增1250道真题、四维架构国考书课全程班（378课时+60节时政直播课）。双方通过"产品定制+服务整合"模式，构建标准化备考体系，推动职业教育从价格优惠向服务升级转型。

热文

3 天
7天

北大字节开辟图像生成新范式，超越Sora核心组件DiT，不再预测下一个token

荐AI日报：通义千问开源Qwen3向量模型；字节跳动图像编辑模型SeedEdit 3.0；ElevenLabs推v3语音模型

Reddit 起诉 Anthropic，称其未支付AI训练数据费用

荐AI日报：阿里通义推Qwen-TTS模型；Cursor已支持网页和手机端；字节发布图像合成技术XVerse

100%签约！优刻得加码乌兰察布“Token之都”建设

科大讯飞最新发布！打造下一代智能交互新范式

字节跳动公布核心人才观称用人看潜力不看资历

必应引入OpenAI的Sora视频生成器，完全免费使用

华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

AI时代的营销答卷：淘宝天下摘得TopDigital桂冠

中公教育&天猫图书联名打造准化备考方案重塑行业服务范式

热文

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小鹏G7官宣7月3日发布全球首款L3级算力车型

安克修改召回方案充电宝泡盐水处理后可获赔

董明珠说自己尽量少说话让年轻管理团队走向台前

小米YU7将开启限时改配非准现车锁单用户可参与

小米股票上热搜：盘中股价突破60港元创历史新高

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小米YU7 3分钟大定突破200000台雷军：YU7订单要高于SU7

京东回应外卖员帮扔垃圾每单0.5元：小范围测试未正式上线

雷军说特斯拉确实了不起：引领了行业趋势尤其是FSD

小鹏G7官宣7月3日发布全球首款L3级算力车型

荣耀正式启动A股IPO 获上市辅导备案

安克修改召回方案充电宝泡盐水处理后可获赔

董明珠说自己尽量少说话让年轻管理团队走向台前

站长商机