首页 > 业界 > 关键词  > Vidu最新资讯  > 正文

清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频

2024-04-28 09:35 · 稿源:站长之家

站长之家(ChinaZ.com)4月28日 消息:生数科技与清华大学在中关村论坛未来人工智能先锋论坛上共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型是国内首个达到Sora级别的视频大模型,标志着中国在视频生成技术领域的重要进展。

image.png

Vidu的主要特点和技术创新包括:

模型结构: Vidu采用了创新性的U-ViT架构,该架构融合了Diffusion(扩散)与Transformer技术。

视频生成能力: Vidu能够一键生成长达16秒、分辨率高达1080P的高清视频内容,满足长视频内容的生成需求。

实际应用演示: 官方资料中的一个视频示例展示了“画室中的一艘船驶向镜头”的场景,船和海浪的逼真效果体现了Vidu的强大生成能力。

高级功能: Vidu不仅能够模拟真实物理世界,还具备丰富的想象力,支持多镜头生成和高时空一致性,为视频创作提供了更多可能性。

技术先进性:

全球首创: Vidu的U-ViT架构是全球首个将Diffusion与Transformer融合的架构,早于其他类似模型使用的技术。

开源成就:2023年3月,团队开源了基于U-ViT架构的多模态扩散模型UniDiffuser,这是全球首个此类模型,验证了U-ViT架构的大规模可扩展性。

产品入口:https://top.aibase.com/tool/vidu

举报

  • 相关推荐
  • 视频生成模型Vidu Q1怎么用?Vidu Q1官网是什么?

    国产视频生成大模型Vidu Q1在性能、价格和功能上实现重大突破。该模型由生数科技推出,在VBench评测中超越Sora等国内外顶尖模型,支持1080p高清视频生成,每秒价格低至3毛钱。其首尾帧功能仅需两张图即可实现电影级运镜效果,支持多元风格生成和48kHz高采样率混音功能。Vidu Q1已深度赋能影视、广告、动漫等行业,大幅降低创作门槛。

  • 索尼Xperia 1 VII发布1080P屏+骁龙8 Elite 售价过万

    索尼发布Xperia 1 VII旗舰手机,售价1499欧元(约11980元)。配备6.5英寸FHD+屏幕,搭载骁龙8 Elite处理器,12GB+256GB存储。影像系统是最大亮点:后置三摄采用全新1/1.35英寸Exmor T传感器,支持85-170mm连续光学变焦(3.5-7.1倍),配合AI技术可显著提升低光拍摄表现和动态范围。5000mAh电池支持30W快充,保留3.5mm耳机孔。该机主打专业影像功能,特别适合拍摄人像和光学散景效果,视频色彩表现达影院级水准。

  • 持续霸榜!可灵2.0模型登顶全球视频生成大模型榜单

    快手旗下可灵AI 2.0模型在权威AI评测中表现优异,以1124分超越自研1.6版本,连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示,自2023年6月上线以来,可灵AI全球用户突破2200万,月活激增25倍,累计生成视频1.68亿个、图片3.44亿张。商业化方面,其单月流水已超千万元,并与伊利、vivo等头部品牌达成深度合作,展现出AI视频生成技术的广阔商业前景。

  • 豆包视频生成模型Seedance 1.0 lite发布:“迅速生成影视级的视频

    火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品:1)Seedance 1.0 lite视频生成模型,支持5-10秒480P/720P视频生成,具备影视级画质和生成速度优势,适用于电商广告、影视创作等场景;2)豆包1.5视觉深度思考模型,仅20B参数但具备多模态理解能力,在60项基准测试中38项达SOTA水平;3)升级版豆包音乐模型,新增英文歌曲创作功能,并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

  • 仅用三张图像即可生成 3D 场景,苹果新 AI 模型“很惊人”

    只需三张输入图像,Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建,这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

  • 腾讯元宝又叒叕上新:一句话即可生成Mermaid图表

    据其介绍,只要在元宝里输入一句话,比如帮我用Mermaid生成一张xxx流程图”,系统就会自动生成饼图、流程图、甘特图、时序图等。生成后,用户可以立刻预览效果,或者复制代码拿去其他地方使用。 腾讯元宝介绍,这个功能比较适合用在学术研究、工作报告、数据分析等场景,能帮助用户把复杂的内容快速变成图表,让信息更直观,沟通也更高效。

  • 合合信息发布大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • AI日报:Vidu Q1正式上线;MCP SDK 正式支持流式 HTTP;抖音一季度封禁AI黑产账号260万个

    本文介绍了AI领域多项重要进展:1)MCP SDK支持流式HTTP协议,提升开发效率;2)Vidu Q1视频生成模型上线,提供专业级视觉体验;3)马斯克计划筹资250亿美元开发Colossus 2超级计算机;4)Sand AI开源MAGI-1视频生成模型;5)电商AI助手Add To Cart AI优化购物体验;6)Anthropic发布Claude Code编程指南;7)真我推出支持32种语言的AI翻译耳机;8)2025年AI视频企业TOP20榜单发布;9)清华GLM大模型免费开放;10)AI面试作弊工具引争议;11)抖音AI治理封禁260万违规账号;12)全球首款具备嗅觉的机器人问世。这些创新展示了AI技术在视频生成、编程辅助、电商、翻译等领域的快速发展与应用潜力。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。