首页 > AI头条  > 正文

生数科技视频生成模型Vidu 1.5版发布 攻克“多主体一致性”难题

2024-11-13 13:57 · 来源: AIbase基地

在Vidu上线逾百日之际,生数科技自豪地宣布Vidu1.5新版本的问世,该版本实现了世界领先水平的突破,特别是在理解多样化输入和突破“一致性”难题方面。

Vidu1.5的推出标志着视觉模型进入了全新的“上下文”时代,加速了通用人工智能(AGI)的到来。Vidu在全球上线之初便具备了角色一致性生成能力,通过锁定人物面部特征解决了视频生成中的关键痛点。9月份,Vidu全球率先发布了“主体一致性”功能,将面部一致性拓展至全身一致性,并将范围扩展到动物、物体、虚拟角色等任意主体。Vidu的技术突破主要体现在三个方面:复杂主体的精准控制、人物面部特征和动态表情的自然一致性、多主体一致性。

微信截图_20241113135537.png

微信截图_20241113135531.png

Vidu1.5展现了视觉模型全新的“智能涌现”,展示了其强大的上下文学习能力。这意味着视觉模型不仅具备了理解和想象的能力,还能够在生成过程中进行记忆管理。Vidu1.5延续了其业界领先的生成效率,不到30秒即可生成一段视频。Vidu秉承通用性的理念,与LLM(大型语言模型)一致的设计哲学,将所有问题统一为视觉输入和视觉输出的问题,使用单个Transformer统一建模变长的输入和输出,并从视频数据的压缩中获取智能。

Vidu1.5的推出,不仅提升了视频模型的可控性,还通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。这标志着视觉智能的涌现,加速了AGI的到来。Vidu不再仅仅是一个高质量、高效的视频生成器,它还能在生成过程中融入上下文信息和记忆,这是视觉模态智能的“大跨越”。视觉模型将具备更强的认知能力,成为AGI的一块重要拼图。

体验地址:www.vidu.studio

  • 相关推荐
  • Vidda 火星基地亮剑:C5 领衔四件套,改写影音产品性能规则

    Vidda在AWE展会发布多款创新产品:C5无界Master投影仪搭载SST架构DMD芯片、双激光器和122mm影院级镜头,实现6800CVIA高亮度和精准色彩;发现X2026电视采用"墨晶屏"技术,解决强光反光问题;同时推出V11开放式耳机与G11智能眼镜,以轻量化设计提升佩戴体验。整场发布会通过实机拆解和极限测试,展现品牌"技术平权"理念,强调用户体验优先于参数竞争。

  • 女子徒步误将蛇窝当野生蹦床 耗时1.5小时才脱险

    10月26日,江西上饶的李女士与朋友在擂鼓岭山区徒步时,意外发现一处直径约50厘米的落叶堆积区。该区域地面松软且富有弹性,两人误以为是“天然蹦床”,便多次在上面蹦跳并拍摄视频。然而,危险正悄然逼近——她们随后在附近遭遇两条蛇,其中一条呈棕黑色,形似木棍;另一条头部扁平,符合眼镜蛇的典型特征。两人当即意识到危险,迅速撤离现场。 由于山路崎岖且�

  • 菁彩Vivid影院技术新标准发布,国产自研影音技术再升级

    在高质量观影与产业发展需求驱动下,中国电影科研所联合行业机构研发"菁彩影院技术",制定LED影院图像发行母版与音频处理器两项技术标准。该技术融合自主创新的菁彩Vivid技术与国际标准,实现高亮度、高动态范围等优质画面效果,支持沉浸式音频处理。目前全国已部署约180块LED电影屏,相关影片正式上映,标志着我国在高格式电影技术领域取得突破,为国产技术国际化提供支撑。

  • 超擎速度!全国首批NVIDIA DGX Spark率先抵达超擎数智,现货在仓,交付启动

    10月19日,全国首批NVIDIA DGX Spark桌面级AI超算率先抵达超擎数智并开始交付。这款"全球最小AI超算"在发布72小时内落地中国市场,为企业和科研机构提供强劲算力。产品预装完整AI软件栈,实现开箱即用,配备详细快速指南和专业支持团队,助力开发者无缝对接顶尖计算能力,加速AI本地化开发创新。

  • 1.5万元LV外套撞衫中学校服:价差超 185 倍

    ​今日,长沙市长郡中学一名学生在社交平台发布对比图,称该校冬季校服设计与奢侈品牌路易威登(LV) 2024 年秋冬系列男士大衣存在高度相似性,引发网友广泛讨论。该学生调侃“长郡版LV联名校服终于来了,这次扳回一局”,相关话题迅速登上本地热搜榜。 据对比图片显示,长郡中学新款校服与LV大衣在版型、配色及细节设计上确有相似之处:两者均采用藏青色为主色调

  • AI日报:微软发布首款自研图像生成模型 MAI-Image-1;百度世界大会时间公布;AI大牛开源nanochat教学工具

    微软发布首款自研图像生成模型MAI-Image-1,跻身LMArena前十,注重实用性与光影效果;百度世界2025大会将聚焦大模型与AI全球化战略;Meta新技术使RAG推理速度提升30倍;开源项目nanochat实现低成本构建聊天AI;谷歌NotebookLM新增动漫视频生成功能;中国农大发布神农大模型3.0助力智慧农业;腾讯启动"青云奖学金"培养AI人才;苹果FS-DFM模型长文本生成效率提升128倍;谷歌Lens整合AI图像编辑功能;港大与美团提出CodePlot-CoT方法,通过代码绘图解决数学难题,性能提升21%。

  • 君乐宝博士后团队全国博创赛摘铜 后生元研发攻克发酵乳保质期短板

    10月28日,第三届全国博士后创新创业大赛总决赛在福建泉州落幕。君乐宝乳业集团博士后团队的“自主创新后生元国产菌株——功能机制解析及在常温酸奶产业化中的突破应用”项目获得铜奖。该项目开发具有自主知识产权的菌株,应用于发酵乳中延长保质期并提升抗氧化等功能,体现了君乐宝在乳制品核心技术研发和人才培养上的实力。大赛是我国博士后领域规模最大、层次最高的全国性赛事,旨在搭建创新成果转化平台,选拔优秀青年科技人才。君乐宝表示将持续深化产学研合作,为消费者带来更健康美味的发酵乳制品。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • 科技美育融合创新:vivo携手中国美院发布《科技美育探索报告》,共建乡村美育新生态

    2025年10月23日至26日,第二届乡村儿童美育公益行动论坛在浙江衢州龙游县溪口镇举办,主题为“重塑联结·在造乡村”。vivo作为乡村儿童美育网络执委机构,主办“2025科技美育”平行分论坛,汇聚专家学者及一线实践者,探讨科技与美育融合的创新路径。论坛发布了《科技美育探索报告》,提出科技在美育领域的五种介入模型,系统梳理行业实践。vivo通过“童画未来”项目,以低门槛设备结合在地化课程,为乡村孩子提供创造性美育体验,并展示多方协作成果。与会者强调美育在科技时代的人文价值,呼吁构建开放共生的科技美育新生态。

  • 悦灵犀AI全新版本是一次革命性的底层技术架构全栈进化

    2025年10月28日,悦享控股发布悦灵犀AI 3.0版本,实现革命性AI底层架构全栈升级。核心突破包括:自研北宸星烁3.0大模型显著提升人像建模与光影控制能力;全新AI写真系统支持75种风格、4K人像生成及30fps视频输出,打通“从静态图像到动态影像”全链路创作;创新多智能体协作体系模拟真实影楼全流程,用户通过简单指令即可获得专业级AI写真。此次升级标志着AI从工具型走向生态型,重新定义智能内容创作新时代。

今日大家都在搜的词: