首页 > 热点 > 关键词  > 人工智能最新资讯  > 正文

清华团队国产“Sora”火了:生数科技发布视频大模型「Vidu」

2024-04-28 07:58 · 稿源:站长之家

站长之家(ChinaZ.com)4月28日 消息:在中关村论坛的未来人工智能先锋论坛中,生数科技与清华大学携手,正式推出了中国首个具备长时长、高一致性及高动态性的视频大模型——“Vidu”。

这款引领时代的视频大模型,其核心在于团队原创的DiffusionTransformer融合的U-ViT架构。它不仅能一键生成长达16秒、清晰度达到1080P的高清视频,更能在模拟真实物理世界的同时,展现出惊人的想象力。多镜头生成、时空高度一致,这些都是Vidu的独特魅力。

微信截图_20240428080150.png

值得一提的是,Vidu自发布以来,便在全球范围内取得了显著突破,其性能与国际顶尖水平比肩,并仍在不断迭代优化中。这一成就,离不开团队在贝叶斯机器学习和多模态大模型领域的深厚积累和多项原创性成果。

特别是团队于2022年9月提出的U-ViT架构,作为全球首个Diffusion与Transformer的融合架构,为Vidu的诞生奠定了坚实基础。随后,在2023年3月,团队再次领先,开源了基于U-ViT融合架构的多模态扩散模型UniDiffuser,成功验证了U-ViT架构的大规模可扩展性。

基于对U-ViT架构的深入理解和丰富的工程、数据经验,团队在极短的时间内攻克了长视频表示与处理的多项关键技术难题,从而研发出了Vidu视频大模型。这款模型在提升视频连贯性和动态性方面表现出色,进一步推动了视频处理技术的发展。

Vidu的问世,不仅再次验证了U-ViT融合架构在大规模视觉任务中的卓越性能,也展示了生数科技在多模态原生大模型领域的持续创新能力和行业领先地位。作为通用视觉模型,Vidu能够生成更加多样化、更长时长的视频内容,其灵活的架构也将为未来兼容更广泛的模态、拓展多模态通用能力的边界提供无限可能。

申请地址:

https://shengshu.feishu.cn/share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph

举报

  • 相关推荐
  • 持续霸榜!可灵2.0模型登顶全球视频生成大模型榜单

    快手旗下可灵AI 2.0模型在权威AI评测中表现优异,以1124分超越自研1.6版本,连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示,自2023年6月上线以来,可灵AI全球用户突破2200万,月活激增25倍,累计生成视频1.68亿个、图片3.44亿张。商业化方面,其单月流水已超千万元,并与伊利、vivo等头部品牌达成深度合作,展现出AI视频生成技术的广阔商业前景。

  • 创泽视科技发布全场景AIoT矩阵,打造家庭与户外智能新生态

    创泽视科技4月25日在深圳举办"制造共生·破局新生"发布会,推出覆盖家居安防、宠物经济、母婴健康、生态友好、户外运动五大场景的智能终端产品矩阵,实现从室内到户外的全生态AIoT布局。公司CEO表示,新一代智能设备将具备情感交互功能,已实现婴儿哭声情绪解码技术,未来可应用于老人看护和心理健康监测。同时推出智能喂鸟器和狩猎监视器,打破家庭与自然的界限,体现"生态平衡"新理念。2024年全球智能家居市场规模达1215.9亿美元,预计2032年将突破6332亿美元。创泽视以"无界生态"为核心,通过技术创新重构智能生活新境界。

  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • 慧灵科技发布eHand-6:2999元突破灵巧手成本桎梏

    慧灵科技推出2999元工业灵巧手eHand-6,突破行业价格壁垒。该产品采用全栈自研技术,集成微型电动推杆、高性能驱动器及软件算法,实现5个自由度、10N抓握力和5kg负载能力,性能媲美国外10万元级产品。通过标准化模块设计、完整产业链布局,将核心部件成本降低80%,推动工业灵巧手进入千元时代。这是继电动夹爪、SCARA机械臂后,慧灵再次以技术创新重构自动化零部件价值体系,加速工业自动化普及进程。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • ​海信重磅发布“云信·通途交通大模型”: 以AI之力,解锁智能交通无限可能

    4 月 23 日, 第十五届中国国际道路交通安全产品博览会在武汉国际博览中心盛大启幕。海信网络科技公司重磅发布“海信云信·通途交通大模型”, 标志着其在智慧交通领域的AI技术创新应用迈入了全新阶段。 该交通大模型是海信深度融合二十余年交通行业经验与前沿AI技术的产物。基于海量交通专业数据与多模态感知能力,构建“问答-分析-决策”一体化系统,通过AI指挥官

  • 伟世通×火山引擎:发布基于豆包大模型的智能座舱解决方案

    2025年上海车展期间,火山引擎与伟世通联合发布基于AI大模型的下一代智能座舱解决方案。该方案融合豆包大模型AI能力和伟世通高性能域控平台,通过端云协同架构和多模态交互技术,实现离线功能闭环运行和快速响应。方案接入火山丰富的内容生态,支持个性化推荐和"千人千面"自适应设计,同时具备多模态交互能力,实现更自然的人机交互。双方还将共同探索AI大模型在智能座舱场景的优化适配,助力车企打造差异化智能座舱体验。

  • 一场文心大模型的「AI马拉松」

    对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年,模型能力的重要性依然无需多言。 从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。 从后训练的角度来看,强化学习新范式正�

  • 奔驰新款CLA接入豆包大模型

    4月22日,奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构,接入火山引擎大模型,支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈,交互效率提升50%,唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型,结合生成式AI和大数据技术,为中国用户打造更智能的用车体验。

  • 金蝶征信“金融风控大模型”斩获数字中国创新大赛智能科技一等奖

    2025数字中国创新大赛总决赛在福州落幕,金蝶征信凭借"基于知识图谱增强与动态推理的智能金融风控大模型"项目从全国千余支队伍中脱颖而出,斩获一等奖。该项目通过AI+信用数据赋能产业链风控与智能获客,已成功应用于网商银行、京东科技等头部金融机构。以京东科技"企业主贷"场景为例,模型上线后审批通过率从8%提升至30%,户均融资额增长216%。金蝶征信依托740万企业云服务场景与财税数据积淀,已助力200余家金融机构服务400万家小微企业,促成1800亿元数字信贷精准投放。未来将持续深化AI与信用科技融合应用,推动普惠金融高质量发展。