首页 > 业界 > 关键词  > 视频最新资讯  > 正文

腾讯和香港科技大学开源视频生成模型VideoCrafter1 超越其他开源模型

2023-11-01 11:13 · 稿源:站长之家

站长之家(ChinaZ.com)11月1日 消息:腾讯和香港科技大学最近合作推出了一种全新的视频生成模型VideoCrafter,用于高质量视频生成。这个模型包括视频VAE和3D去噪U-net,经过在庞大的数据集上进行了训练,其性能表现出色,超过了其他开源视频生成模型。

该项目旨在创建一个高级且用户友好的视频生成模型,以满足研究和生产的需求,并为社区的发展做出贡献。他们还设想了一个视频创作助手,能够通过视觉创作将想象的点子变为现实。

image.png

项目地址:https://ailab-cvc.github.io/videocrafter/

VideoCrafter1提供了两种开放扩散模型,分别用于文本到视频(T2V)和图像到视频(I2V)任务。T2V模型能够生成具有1024×576分辨率的逼真且具有电影质量的视频,在质量方面胜过其他开源T2V模型。而I2V模型则旨在生成与提供的参考图像内容严格一致的视频,保留其内容、结构和风格。这是第一个能够将给定图像转化为视频剪辑并保持内容保存约束的开源I2V基础模型。

该项目的视频扩散模型框架利用自动编码器的潜在空间中训练视频UNet,以FPS作为条件来控制生成视频的运动速度。对于T2V模型,只需将文本提示通过交叉关注(feed into the spatial transformer)输入即可,而对于I2V模型,则将文本和图像提示一同输入。

此外,他们提供了EvalCrafter进行综合评估。项目鼓励使用其代码、模型和数据的研究引用,并采用Apache2.0许可分发其代码、模型和数据。

举报

  • 相关推荐
  • 长视频,要MCN化?

    过去十多年,长视频平台习惯用头部综艺与大剧撬动增长:内容够强,自然破圈,声量带动会员与广告。 这套“内容中心逻辑”曾行之有效。 但短视频重写了注意力分配。用户不再愿意投入整段时间追一个叙事,三十秒的情绪刺激就足以满足娱乐需求。内容生命周期被压缩,哪怕是重金制作,也可能上线当周见顶、难以延展。 在这种环境下,平台不得不寻找新的增长方式。�

  • 拍照视频,无需妥协:佳能R50V以全能双修定义创作新标准

    佳能R50V以“全能双修”定位成为市场焦点,在视频与摄影两大核心维度表现均衡专业。搭载2420万像素APS-C画幅CMOS与DIGIC X处理器,支持6K超采4K录制及专业格式,配备10bit色深。机身仅重323克,新增竖拍优化与14种滤镜,支持USB一线连播。具备1/8000秒快门与第二代全像素双核AF系统,可精准识别多类主体。配合RF-S电动变焦镜头实现广角自拍,覆盖Vlog、直播、人像等多场景,以约6000元定价降低专业创作门槛,成为内容创作者的热门选择。

  • 短视频加速跑入AI时代

    「现在是西天取经的第996天,刚把师父从妖怪嘴里救出来,师父身上都还是热乎的,我们就马不停蹄开始出发了。」在抖音,都能看到《西游记》里师徒四人的取经vlog了。 采访高考完刚出考场的爱因斯坦、孟德尔、门捷列夫;慈溪逛颐和园Vlog、大禹治水现场直播,各种AI生成的视频成为网友「玩梗搞抽象」的核心生产力。 尽管在专业影视

  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • 一机在手,随心创作:佳能R50V满足你对Vlog、人像与美食视频的所有想象

    佳能R50V微单相机专为视频创作者设计,兼具专业画质与便携性。机身仅重323克,支持6K超采4K视频,配备第二代全像素双核AF系统,可智能追踪人物、动物等多种主体。内置14种色彩滤镜与平滑皮肤功能,优化人像表现。创意拍摄模式支持慢快动作、电影宽银幕比例,竖拍优化与直播兼容性进一步提升创作效率,是Vlog、旅拍和街拍的理想工具。

  • 保洁阿姨拍“土味说车”视频出圈:一口地道的东北话

    近日,哈尔滨一家雷克萨斯汽车经销店的保洁阿姨凭借一条“土味说车”视频在网络上迅速走红。“老板买车吗?这大轱辘你喜欢吗?黢黑式轮毂喜欢吗?”阿姨一口地道的东北话,搭配着并不十分娴熟的车辆专业术语,这种反差萌受到了众多网友的喜爱。 这位出镜的保洁阿姨今年58

  • 爆火!58岁保洁阿姨拍“土味说车”视频出圈:这黢黑大轱辘你喜欢吗

    老板买车吗”硬派大越野子”这大底盘子,还能伸进一个小腿呢”。 近日,哈尔滨一雷克萨斯汽车经销店的保洁阿姨,因 土味说车” 视频意外走红网络。 这位阿姨今年58岁,自2019年起就在该门店从事保洁工作,视频里她用一口地道的东北话介绍车辆,还夹杂着 黢黑的大轱辘”6 个桶子(6 个缸)3.5 的 T”双关轮子增压(双涡轮增压)” 等不娴熟却接地气的表述。 阿姨说车

  • AI日报:HeyGen发布AI视频翻译引擎;科大讯飞推星火 X1.5;QQ浏览器推出AI+小窗

    本期AI日报聚焦多项技术突破:HeyGen推出精准唇形同步的视频翻译引擎;科大讯飞发布星火X1.5大模型,提升多语言处理能力;QQ浏览器新增AI助手浮窗;科大讯飞推出软硬一体方案,实现高噪声环境精准识别;谷歌Gemini 3 Pro预览版支持百万级上下文窗口;Comfy Cloud让Stable Diffusion实现零门槛创作;谷歌Gemini新增深度研究功能,可整合邮件生成智能报告;上海AgiBot机器人10分钟完成复杂制造任务,重塑生产效率。

  • 科大讯飞1024发布:讯飞翻译APP迭代焕新,同声传译+音视频翻译重构沟通体验

    在2025科大讯飞全球1024开发者节期间,讯飞翻译APP迎来关键升级,重点强化同声传译功能。通过搭载全新语音同传大模型,实现翻译更准、响应更快;新增实时分享、记录留存、悬浮字幕等特性,支持跨场景高效应用。该产品已在东盟博览会等国际场合验证实用性,结合IDC报告八大维度第一的权威背书,彰显了AI翻译技术从研发到落地的全链条优势,为跨语言沟通提供简单如母语的体验。

  • 逗哥配音团队:以硬核技术铺就AI创作未来,重塑短视频创作生态

    逗哥配音平台凭借AI语音技术革新,为短视频创作者提供全方位赋能。平台集成上千款覆盖多年龄风格的真人声音资源,支持多语言合成,具备媲美真人的情感表达能力。其核心功能包括AI角色分配、5秒极速克隆及20项精细调节工具,结合去水印、字幕生成等实用功能,实现一站式创作。已获超百位大V推荐,用户量破千万,累计播放量达十万亿级,显著降低创作门槛,助力各领域内容生产。团队将持续优化技术,拓展功能生态。

今日大家都在搜的词: