首页 > 业界 > 关键词  > MDTv2最新资讯  > 正文

MDTv2开源,Sora 核心组件 DiT 训练提速 10 倍

2024-03-13 14:16 · 稿源:站长之家

**划重点:**

1. 🌟 Masked Diffusion Transformer V2MDTv2()在ImageNet benchmark上刷新SoTA,FID score达到1.58。

2. 🚀 颜水成/程明明研究团队通过引入Masked Diffusion Transformer有效提升了DiT的训练速度,并解决了扩散模型在学习语义关系方面的难题。

3. 📄 论文和代码已开源,详细信息可查阅[GitHub地址](https://github.com/sail-sg/MDT)。

站长之家(ChinaZ.com)3月13日 消息:由颜水成和程明明领衔的研究团队在Sora核心技术上进行了重要的升级,推出了Masked Diffusion Transformer V2。该模型在ImageNet benchmark上取得了惊人的成绩,FID score达到1.58,刷新了State-of-the-Art(SoTA)。

作为Sora的核心技术之一,Diffusion Transformer(DiT)在图像生成领域取得了显著的成功,但其训练成本随着模型规模的增大而飙升。研究者发现,扩散模型难以高效地学习图像中物体各部分之间的语义关系,导致训练过程低收敛效率。为了解决这一问题,颜水成和程明明研究团队提出了Masked Diffusion Transformer(MDT),通过引入mask modeling表征学习策略,显著提升了DiT的训练效率。

image.png

MDT采用了针对Diffusion Transformer设计的mask modeling表征学习策略,增强了模型对上下文语义信息的学习能力,并加强了图像中物体之间语义信息的关联学习。通过在扩散训练过程中引入类似于MAE的mask modeling表征学习方案,MDT能够重建不完整输入图像的完整信息,提升图像生成的质量和学习速度。

具体而言,MDT通过VAE encoder将图片映射到latent空间,并在latent空间中进行处理以节省计算成本。在训练过程中,MDT首先mask掉部分加噪声后的图像token,并将剩余的token送入Asymmetric Diffusion Transformer来预测去噪声后的全部图像token。Asymmetric Diffusion Transformer架构包含encoder、side-interpolater和decoder,在训练和推理阶段分别处理未被mask的token和所有token,确保了模型的一致性。

最新版本的MDT,即MDTv2,通过更为高效的宏观网络结构进一步优化了diffusion和mask modeling的学习过程,实现了训练速度的显著提升。在ImageNet256基准下,MDTv2相较于DiT,不仅在训练速度上提升了10倍以上,而且在生成质量上取得了更高的FID分数。MDTv2-S/2在400k步骤训练下,FID指标为39.50,明显领先于DiT-S/2的68.40。

总体而言,MDT的创新设计在扩散模型训练中引入了有效的语义信息学习,提高了图像生成的质量和训练速度。研究者认为,通过视觉表征学习增强对物理世界的语义理解,有望提升生成模型对物理世界的模拟效果。这一工作符合Sora的期望,通过生成模型构建物理世界模拟器的理念,为未来的表征学习和生成学习研究提供了有力的启示。

项目入口:

举报

  • 相关推荐
  • DTCC2025丨达梦以智算多模与AI创新引领行业变革

    近日,IT168联合旗下ITPUB、ChinaUnix两大技术社区主办的第十六届中国数据库技术大会(DTCC2025)在京隆重召开。大会以“智能创新 数赢未来”为主题,汇聚超百位行业专家及上千名嘉宾,聚焦数据库领域前沿技术。达梦数据作为领军企业受邀参会,重点展示了其在多模数据处理与AI+数据库融合方面的突破,推出“智算多模”引擎,实现统一存储与智能查询,为行业智能化发展注入新动能。

  • 史上最大Mate!华为智慧屏MateTV将于9月4日发布

    华为终端官方微博近日宣布,备受瞩目的首款华为智慧屏MateTV将于9月4日14:30正式亮相,这款被誉为“华为史上最大Mate”的新品,无疑将再次引领智慧屏领域的创新潮流。 早在8月20日,华为便举办了2025华为智慧屏MateTV新品技术发布会,提前揭秘了MateTV的多项创新技术,引发了业界和消费者的广泛关注。此次发布的MateTV,首次将手机端成熟的界面交互引入大屏场景,其“鸿蒙追

  • 曾经的土味KTV成了Z世代的真香 创造多元化消费需求

    近日,曾经被视为“夕阳产业”的KTV行业迎来了意想不到的转机,以星聚会为代表的传统KTV品牌成功逆袭,成为Z世代年轻人热衷的社交新场所。这一变化不仅颠覆了人们对KTV的固有印象,更揭示了年轻消费群体对于娱乐方式的全新追求。 Z世代作为互联网原住民,对于参与感、体验感和新鲜感有着极高的追求。他们不再满足于传统的娱乐方式,而是更加倾向于那些能够提供独�

  • 华为首款鸿蒙MateTV发布 支持灵犀触控交互等功能

    ​华为在深圳以“大Mate大不同”为主题举办智慧屏新品技术发布会,正式推出旗舰新品——华为智慧屏 MateTV。这款搭载HarmonyOS5系统的智慧屏,首次配备鸿鹄Vivid独立画质芯片,并创新引入灵犀悬浮触控技术,支持双指悬浮多指操控,传输延迟低至8ms,重新定义了电视交互体验。 设计方面,华为智慧屏 MateTV采用超薄机身设计,厚度仅36.9mm,配合99%屏占比实现“零贴墙”安装效

  • 东方“水哲学”照见万家烟火:凯度TVC以流动科技重构厨房温度

    当前厨电市场竞争激烈,品牌叙事陷入同质化困境。凯度新发布的TVC《漫》以东方哲学为灵感,通过“水”的意象构建独特品牌美学,突破传统参数竞争,强调科技与生活的融合。影片以“破界”“渗透”“升维”“归心”四个章节,展现柔性科技与人文关怀的结合,倡导“不争而利万物”的价值观,为高端品牌差异化发展提供新思路。

  • ​AI 测试引领者——Testin 云测荣膺“2025 数字中国 TOP100”

    近日,中国科学院主管的《互联网周刊》发布“2025数字中国TOP100”榜单,Testin云测与华为、大疆、阿里巴巴等企业共同入选。该榜单覆盖人工智能、智能制造、区块链等多个数字技术领域,旨在为各行业数字化转型提供技术参照。Testin云测作为AI测试服务商,凭借深厚技术积累,助力金融、汽车等行业突破质量瓶颈,提升测试效率3倍以上,成为支撑产业数字化的关键力量。

  • 智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

    智谱今天,终于发了AutoGLM2.0。 想一想,AutoGLM1.0的版本,距离我第一次首发写他们,已经过去快10个月了。 那个时候,他们掀起了一波Agent热潮,甚至连A股都出现了智谱概念股,他们也开启了Agent的另一条支线,用视觉的方式来操控原有设备。 当时,我对着我的手机说:我29号要去一趟深圳,你帮我定个罗湖地铁站附近的酒店,预算600元以内,大床房。 然后,我的手机,就像

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 每日互动GAI Station亮相2025数博会 新一代智能终端为企业落地AI保驾护航

    2025中国国际大数据产业博览会于8月27日在贵阳开幕,聚焦数据智能与产业融合。每日互动公司展示其AI拳头产品GAI+Station,这是一站式AI落地应用解决方案,集成算力与知识库,覆盖主流办公场景。同时推出AI机器狗,具备多模态交互能力。展会还呈现“数智绿波”等数据应用成果,提升交通效率20%以上。活动凸显大数据与人工智能深度融合,推动产业智能化升级。

  • Matrixport 受邀出席 Bitcoin Asia 2025,共议机构投资新趋势

    Bitcoin Asia 2025峰会将于8月28-29日在香港举行,由BTC Media主办。预计吸引超1.5万名与会者,涵盖主题演讲、圆桌讨论及展览等活动,突显香港在全球数字资产领域的战略地位。会议将探讨亚太市场潜力、机构化进程及多元化投资机会,并邀请200余位全球重量级嘉宾参与。Matrixport作为亚洲领先加密金融服务平台,将持续推动资产数字化及Web3基础设施落地,助力行业创新与发展。

今日大家都在搜的词: