北大团队发起复现Sora计划“Open Sora” AnimateDiff大神响应

2024-03-04 09:24 · 稿源：站长之家

要点:
1. 北大团队联合兔展发起了复现Sora的计划，框架已搭建，袁粒和田永鸿领衔。
2. Open Sora计划采用三部分组成的框架，包括Video VQ-VAE、Denoising Diffusion Transformer和Condition Encoder。
3. 计划已经完成了初步功能的实现，团队在集结开源社区力量，希望尽可能完成复现。

站长之家（ChinaZ.com）3月4日消息:北大团队联合兔展启动了复现Sora的计划，该项目名为Open Sora。这一举措的背后是资源有限的情况下，团队希望汇集开源社区的力量，以尽可能完成复现工作。

项目的核心团队由北大信息工程学院助理教授袁粒和北大计算机学院教授田永鸿等领导，共有13名成员。除了团队成员外，北大校友和AnimateDiff贡献者等也积极响应，并有人表示愿意提供高质量的数据集。

项目地址:https://top.aibase.com/tool/open-sora-plan

关于Sora的复现技术细节已经公布，项目框架包括三个主要部分:Video VQ-VAE、Denoising Diffusion Transformer和Condition Encoder。

为了解决Sora视频的可变长宽比问题，团队采用了上海AI Lab提出的FiT技术，实施了一种动态掩码策略。同时，团队还通过位置插值来处理可变分辨率，并使用Video VQ-VAE来支持可变时长的视频处理。团队已经初步实现了三个功能，并在项目主页上提供了两个demo，展示了10秒和18秒视频的重建效果。

尽管已经取得了一些进展，但团队面临着诸多挑战。目前的训练是在8个A100-80G上进行的，但仍然远远不够，而且需要更多的数据和GPU进行训练。团队已经完成了一些任务，包括采样脚本和在embeddings上添加类条件，但仍有一些待办事项需要完成。

项目的领衔者之一是袁粒，他是北大信息工程学院的助理教授，曾获得福布斯30岁以下亚洲杰出人物榜单的荣誉。另一位领衔者是田永鸿，他是北京大学博雅特聘教授，拥有丰富的科研经验和荣誉。

关于谁能率先发布中文版Sora的问题，目前仍然是一个未解之谜。在业内，有传言称字节可能会成为首个发布中文版Sora的公司。尽管有一些AI模型类似于Sora，比如最近出现的Boximator和Dreamina，但它们与Sora仍存在一定差距。然而，这个问题的答案还有待时间的揭晓。

（举报）

相关推荐

关键词：

Sora App的AI视频社交，给了百度们新希望

Sora2发布两周后，百度的蒸汽机AI视频模型，和谷歌Veo3.1撞了档期。两家公司选择同期发布并非有多默契，而是Sora2带来的压迫感促使它们不得不加快脚步。奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”，不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃，还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。这无疑是扔在AI视�

文章搜索核心标签 AI视频模型
荐狂奔20天，全网“追赶”Sora2

Sora2的发布，再次搅动了全球人工智能行业的神经。 9月30日，OpenAI正式推出其视频生成模型的重大升级版本——Sora2，以及基于该模型的社交应用Sora App。与前一代相比，Sora2在物理模拟的精确度、画面逼真度和生成可控性上显著提升，并实现了音频与人物对话的同步生成。这不仅让AI视频更“像真的”，也让视频生产“像写字”一样简单。短短五天，Sora App下载量便突破百万�

Sora2 人工智能视频生成模型
荐AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；Canva免费放出Affinity专业设计套件

本期AI日报聚焦多项技术突破：OpenAI调整Sora免费额度并推出付费计划，标志视频生成进入商业化；Figma收购Weavy推出AI设计工具；OpenAI发布基于GPT-5的安全研究助手Aardvark；全球首款AI字体生成器Dr Fonts上线；中国信通院发布大模型一体机应用报告；月之暗面推出Kimi Linear架构实现推理速度6倍提升；Canva免费发布Affinity设计套件挑战Adobe；Chrome新增Gemini驱动的图像生成与深度搜索功能。

Sora OpenAI 视频生成
AI日报：Google Skills平台向公众免费开放内部AI知识；LiblibAI 完成1.3亿美元融资；Sora更新推出“角色客串”功能

本期AI日报聚焦视频生成领域重大进展：昆仑万维SkyReels将于11月上线新版AI视频工具；LiblibAI完成1.3亿美元融资；阿里推出夸克对话助手；豆包视频模型Seedance1.0pro实现首尾帧一致性突破；Vidu Q2全面开放API；Sora新增角色客串功能并即将推出安卓版；MiniMax海螺2.3在真实感方面超越Veo；谷歌推出免费AI学习平台"Google Skills"；字节跳动Seed团队发布3D生成模型Seed3D1.0，支持单图生成高质量3D资产。

AI视频昆仑万维 SkyReels
荐即梦VS可灵，谁能「对标」Sora2？

AI视频的战争，才刚刚开始。在生成式AI的大航海时代，文字、图像、代码的疆界已相继被重绘，唯独“视频”这一最复杂、最昂贵、最具传播势能的内容形态，始终处在被技术反复叩门却未彻底攻陷的高地。这个局面，似乎终于要被OpenAI在10月1日推出的Sora2而改变。

AI视频生成式AI Sora2
荐Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

Sora2爆火之后，随之而来的AI视频领域的新产品。来自我的好朋友，曹越老师的Sand.ai。凌晨，他们终于上线了他们全新的音画同步视频模型GAGA-1，在人物表演上，我觉得，已经算是现在的TOP级了。

AI视频 GAGA-1 音画同步
荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

视觉中国与多家AI公司合作开发可商用视觉大模型，已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频，引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人，仅保留Meta AI。宇树科技推出仿人机器人Unitree H2，具备拟人化设计。谷歌为Gemini集成地图数据工具，可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器，但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能，可分析手机未分享照片。

AI 视觉大模型版权合规
荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

本期AI日报聚焦多项技术更新：谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能；通义千问推出记忆功能提升对话连贯性；Sora2免费用户可生成15秒视频，Pro版支持25秒；百度文心助手升级8种创作模式；谷歌Flow工具增强视频光影编辑与音频合成能力；Anthropic发布高性价比Claude Haiku 4.5；北京查处首例AI虚假广告案，涉伪造主持人带货；阿里推出响应仅200毫秒的编程工具Qoder CLI。

AI 视频生成谷歌
Sora 2生成已故名人视频引亲属不满 OpenAI回应：重视反馈将迅速纠正失误

OpenAI 近日推出的 Sora 2 模型引发广泛关注，其默认禁止生成在世公众人物视频，用户纷纷尝试生成各类创意内容。然而，创作者与观众很快发现这一限制存在明显漏洞该模型允许生成已故公众人物的影像，从而在伦理层面引发争议。社交媒体上已涌现大量AI复活”名人的案例，例如李小龙主持DJ现场、迈克尔杰克逊表演单口喜剧等。尽管OpenAI在每段生成视频上添加动态水印，�

OpenAI Sora 2模型
AI浪潮下，项目经理如何破局 | 2025 PMI项目管理大会

人工智能正重塑项目管理模式，项目经理需超越传统技能，掌握AI赋能下的效率提升、创新促进与决策优化能力。个人应通过组织平台与业务深度绑定，构建不可替代的核心价值。2025PMI项目管理大会将探讨AI前沿应用，助力从业者系统掌握转型路径，实现个体与组织的双向赋能，在AI时代保持竞争力。

人工智能项目管理 PMO

今日大家都在搜的词：

热文

3 天
7天

北大团队发起复现Sora计划“Open Sora” AnimateDiff大神响应

Sora App的AI视频社交，给了百度们新希望

荐狂奔20天，全网“追赶”Sora2

荐AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；Canva免费放出Affinity专业设计套件

AI日报：Google Skills平台向公众免费开放内部AI知识；LiblibAI 完成1.3亿美元融资；Sora更新推出“角色客串”功能

荐即梦VS可灵，谁能「对标」Sora2？

荐Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

Sora 2生成已故名人视频引亲属不满 OpenAI回应：重视反馈将迅速纠正失误

AI浪潮下，项目经理如何破局 | 2025 PMI项目管理大会

今日大家都在搜的词：

热文

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

DeepSeek崩了上热搜页面显示“服务器繁忙”

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

真我GT8 Pro阿斯顿马丁F1限量版将于11月10日正式开售

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

真我GT8 Pro阿斯顿马丁F1限量版外观公布

卢伟冰评Air手机：大胆创新但极致薄牺牲用户体验

OPPO ColorOS 16正式版推送：首批适配11款机型

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

苹果客服回应iPhone或自动拨号：设置或其他问题

vivo OriginOS 6启动公测招募：支持10款机型

魅族22月白天青配色发布：2999元起

小米随身蓝牙音箱曜石黑配色版本开售：售价299元

iQOO Neo11开售2小时销量超前代全天

REDMI官方：REDMI K90超级像素新国屏比2K屏更强

站长商机