首页 > 热点 > 关键词  > 人工智能最新资讯  > 正文

清华团队国产“Sora”火了:生数科技发布视频大模型「Vidu」

2024-04-28 07:58 · 稿源:站长之家

站长之家(ChinaZ.com)4月28日 消息:在中关村论坛的未来人工智能先锋论坛中,生数科技与清华大学携手,正式推出了中国首个具备长时长、高一致性及高动态性的视频大模型——“Vidu”。

这款引领时代的视频大模型,其核心在于团队原创的DiffusionTransformer融合的U-ViT架构。它不仅能一键生成长达16秒、清晰度达到1080P的高清视频,更能在模拟真实物理世界的同时,展现出惊人的想象力。多镜头生成、时空高度一致,这些都是Vidu的独特魅力。

微信截图_20240428080150.png

值得一提的是,Vidu自发布以来,便在全球范围内取得了显著突破,其性能与国际顶尖水平比肩,并仍在不断迭代优化中。这一成就,离不开团队在贝叶斯机器学习和多模态大模型领域的深厚积累和多项原创性成果。

特别是团队于2022年9月提出的U-ViT架构,作为全球首个Diffusion与Transformer的融合架构,为Vidu的诞生奠定了坚实基础。随后,在2023年3月,团队再次领先,开源了基于U-ViT融合架构的多模态扩散模型UniDiffuser,成功验证了U-ViT架构的大规模可扩展性。

基于对U-ViT架构的深入理解和丰富的工程、数据经验,团队在极短的时间内攻克了长视频表示与处理的多项关键技术难题,从而研发出了Vidu视频大模型。这款模型在提升视频连贯性和动态性方面表现出色,进一步推动了视频处理技术的发展。

Vidu的问世,不仅再次验证了U-ViT融合架构在大规模视觉任务中的卓越性能,也展示了生数科技在多模态原生大模型领域的持续创新能力和行业领先地位。作为通用视觉模型,Vidu能够生成更加多样化、更长时长的视频内容,其灵活的架构也将为未来兼容更广泛的模态、拓展多模态通用能力的边界提供无限可能。

申请地址:

https://shengshu.feishu.cn/share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph

举报

  • 相关推荐
  • 日本内容产业的新宠:揭秘Vidu征服东京的三大法宝

    生数科技旗下AI视频生成平台Vidu在全球范围内快速扩张,尤其在日本动漫市场表现亮眼。其旗舰产品Vidu Q1模型在VBench评测中位居榜首,能快速生成高质量动漫风格视频,极大提升创作效率。平台已覆盖200多个国家和地区,用户超2500万。Vidu通过文生视频、图生视频等功能,结合丰富模板库,实现"秒级创作",解决日本动漫行业制作周期长、人力成本高等痛点。典型案例�

  • 六大国产大模型高考作文实测:讯飞星火夺冠

    2025年高考全国一卷作文题引发热议,题目以老舍、艾青、穆旦三位作家的作品为素材,要求考生探讨个体在困境中的表达方式。

  • 难哭了的高考数学题,4家国产大模型表现如何?

    2025年高考数学考试引发热议,多家AI大模型参与测试。腾讯元宝和豆包表现最优,分别获得145分和140分(满分150分),仅错1-2道题。文心一言和QWen3稍逊,得分在120分左右。测试显示,AI在选择题和基础解答题表现良好,但在涉及图像理解、向量分析等复杂题目时仍存在困难。特别是一道包含向量图的"杀手题"让所有AI失分。专家指出,国产大模型数学能力已有显著提升�

  • IDC发布中国金融大模型市场份额报告:百度智能云居首

    IDC最新报告显示,百度智能云以12.2%的市场份额位居中国金融行业生成式AI平台及解决方案厂商首位。2024年中国金融生成式AI市场规模预计达9.14亿元,百度智能云全年营收1.113亿元领跑行业。其全栈大模型解决方案覆盖基础设施、基础模型、生成平台及场景应用,已服务超600家金融机构,包括65%的央企客户。典型案例包括某头部银行构建的全行级知识检索平台,覆盖1.6万用户;银河证券部署的衍生品交易机器人累计处理询价26万次;泰康保险的AI智训系统有效提升代理人获客能力。百度通过"算力云+数据飞轮+模型平台+智能体生态"四轮驱动体系,构建了包含300+培训课程的人才认证体系,并与工信部教考中心联合颁发认证证书,当前持证学员超1万人。2025年Q1财报显示,百度智能云营收同比激增42%,金融领域成为核心增长引擎。

  • 国内有哪些ai大模型?一文看懂中国核心AI大模型全景

    近两年中国AI大模型发展迅猛,已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出;深度求索DeepSeek以1/10参数实现GPT-4级推理能力;月之暗面Kimi以20万汉字上下文窗口领跑长文本处理;智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型,覆盖超1000家医院。开源生态加速国产芯片适配,15家厂商完成深度优化。行业应用方面,工程文档效率提升60%,24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向,中国AI正从实验室走向产业变革前沿。

  • 预测大模型的工业生存法则,华为博士告诉你什么才是B端最需要的大模型!

    华为开发者大会2025期间,AI专家李良基与华为团队围绕预测大模型展开深度对话。华为提出"数据原子级表征体系"理念,旨在通过统一数据编码解决跨场景迁移难题。预测大模型已在钢铁行业成功应用,温度预测准确率远超传统方案。专家指出,AGI发展的核心在于构建知识迁移能力,未来将聚焦To B场景落地,通过统一架构实现跨领域泛化应用。华为云首创Triplet Transformer

  • 技嘉科技发布GeForce RTX 5050系列显卡

    技嘉科技于2025年7月2日推出搭载NVIDIA Blackwell架构的GeForce RTX5050系列显卡,包含GAMING、WINDFORCE和Low Profile半高卡等型号。GAMING系列采用多层装甲设计,配备滑动侧板提升互动体验;WINDFORCE系列升级散热系统,风压提升53.6%;Low Profile半高卡仅182mm长度,适合小型机箱。全系列采用服务器级导热凝胶和复合铜热导管,支持四屏输出。产品已于7月1日正式发售。

  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • 豆包大模型1.6发布:全球第一梯队!可生成1080p高品质视频

    字节跳动旗下豆包大模型正式升级为1.6版,在推理、数学、指令遵循、Agent等方面的能力均有较大提升,同时豆包视频生成模型Seedance 1.0 pro、豆包语音播客模型也正式发布。 豆包大模型1.6包括三部分,分别是豆包1.6、豆包1.6-thinking、豆包1.6-flash。 其中,豆包1.6支持on/off/auto三种思考模式,豆包1.6-thinking强化了思考能力,支持多模态,在多个权威测评集上达到了全球第一梯队�

  • 智能体时代,还得看豆包大模型

    火山引擎,又有大动作了。 2025年6月11日,火山引擎Force原动力大会发布豆包大模型1.6、视频生成模型Seedance1.0pro等重磅新模型,以及迭代了一站式AI云原生全栈服务。 对此,字节跳动CEO梁汝波表示:“做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。未来,字节跳动会坚定长期投入,追求智能突破,服务产业应用。通过火山引擎,持续把新模型、新�