首页 > AI头条  > 正文

生数科技视频生成模型Vidu 1.5版发布 攻克“多主体一致性”难题

2024-11-13 13:57 · 来源: AIbase基地

在Vidu上线逾百日之际,生数科技自豪地宣布Vidu1.5新版本的问世,该版本实现了世界领先水平的突破,特别是在理解多样化输入和突破“一致性”难题方面。

Vidu1.5的推出标志着视觉模型进入了全新的“上下文”时代,加速了通用人工智能(AGI)的到来。Vidu在全球上线之初便具备了角色一致性生成能力,通过锁定人物面部特征解决了视频生成中的关键痛点。9月份,Vidu全球率先发布了“主体一致性”功能,将面部一致性拓展至全身一致性,并将范围扩展到动物、物体、虚拟角色等任意主体。Vidu的技术突破主要体现在三个方面:复杂主体的精准控制、人物面部特征和动态表情的自然一致性、多主体一致性。

微信截图_20241113135537.png

微信截图_20241113135531.png

Vidu1.5展现了视觉模型全新的“智能涌现”,展示了其强大的上下文学习能力。这意味着视觉模型不仅具备了理解和想象的能力,还能够在生成过程中进行记忆管理。Vidu1.5延续了其业界领先的生成效率,不到30秒即可生成一段视频。Vidu秉承通用性的理念,与LLM(大型语言模型)一致的设计哲学,将所有问题统一为视觉输入和视觉输出的问题,使用单个Transformer统一建模变长的输入和输出,并从视频数据的压缩中获取智能。

Vidu1.5的推出,不仅提升了视频模型的可控性,还通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。这标志着视觉智能的涌现,加速了AGI的到来。Vidu不再仅仅是一个高质量、高效的视频生成器,它还能在生成过程中融入上下文信息和记忆,这是视觉模态智能的“大跨越”。视觉模型将具备更强的认知能力,成为AGI的一块重要拼图。

体验地址:www.vidu.studio

  • 相关推荐
  • 马斯克母亲发帖支持儿子:演示Grok视频生成功能

    近日,马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。 她表示,这次我把手指放在了最近在X上发布的这张照片上,提示是用Grok制作视频”,现在自己的狗摇着尾巴了,自己玩得很开心。 她还特别提示,这个视频由@grok Imagine制作。

  • 豆包1.5轻量版 vs Gemini 2.5闪存版:生成5000字深度文章,哪个模型更合适?

    AIbase选型工具通过多维度数据对比,帮助用户精准选择AI模型。文章以豆包和Gemini为例,展示平台如何解决模型选型痛点:自动生成对比报告,评估关键指标如术语准确性、本土案例适配度等。实际案例显示,使用该工具后内容团队效率提升40%,编辑成本下降65%。核心价值在于用数据驱动决策,规避局部优势导致的全局误判,实现场景化精准匹配。

  • 昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

    浙江大学朱凌霄团队基于昇腾AI平台,研发出首个无需训练的长序列视觉指令生成框架LIGER,解决了视频生成领域长期存在的时序一致性难题。该技术通过历史提示和视觉记忆机制保持内容连贯性,并采用基于DDIM反演的记忆校准技术提升准确性。团队还提出引导式渐进蒸馏方法,在保持视频质量基础上实现8倍加速。研究成果入选ICLR2025,构建了包含569个任务的评估数据集。未来将深化多模态生成技术研究,构建自主创新的技术生态体系。

  • 汉数科技重磅发布「太擎3.0」丨开启人与 AI 的协作时代

    8月15日,汉数科技在广州发布"太擎3.0"AI协作平台,标志着企业数字化转型进入新阶段。该平台通过AI数字员工实现人机高效协作,覆盖销售、服务、管理三大核心场景。创始人陈开旺详解平台迭代路径:1.0版本构建AI技术底座,2.0版本推出智能体手机实现场景化应用,3.0版本创新性引入"仿生级AI智能体"技术,为企业提供具备岗位能力的数字员工。平台能降低中小

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 豆包1.5 Vision Lite 对比 GPT-5-min,谁更适合你?实测AI模型选型利器|AIBase

    文章探讨了企业选择AI大模型时面临的实际决策难题,指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台(https://model.aibase.cn/compare)通过三大核心价值解决痛点:1)聚焦业务场景而非参数堆砌,突出价格、语言支持、上下文长度等实用维度;2)透明化成本计算,标注长文本溢价规则和多模态附加费;3)一键生成对比报告。平台特别强调中文场景的特殊性(如豆包1.5在中文处理成本的优势),并揭示厂商宣传中容易忽略的隐藏成本(如GPT-5-min超5000字符的30%溢价)。典型电商客服案例显示,需综合中文理解、多模态、性价比等维度决策,最终选择取决于具体业务需求而非绝对性能排名。

  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • 狂飙的算力,炽热的难题:戴尔如何冷静破局

    随着人工智能、云计算和大数据驱动的新一代信息技术革命重塑全球产业格局,算力需求呈现爆发式增长。中国算力规模位居全球第二,但数据中心面临高能耗、高碳排放及成本攀升的多重挑战。戴尔科技通过软硬件协同创新,推出覆盖风冷、液冷等多场景的智能冷却方案,构建全方位能效管理体系,显著降低运营成本与碳排放,助力构建绿色低碳的数据中心底座,为未来数字经济发展提供坚实支撑。

  • 如何用3分钟精准计算AI大模型成本?避免生成一篇万字文章就超支?

    AI大模型成本控制指南:实测三步预算法+企业级避坑方案。文章揭露行业痛点:1)价格迷雾:各厂商计费规则差异大,长文本/多模态存在隐藏溢价;2)团队实测GPT-4生成20篇行业分析(50万字)实际账单超预算4倍。解决方案:通过AIbase计算器实现精准预测:①场景化选择自动加载计费规则;②输入需求实时生成动态成本矩阵;③智能规避四大隐性成本(长文本衰减补偿/区域差价预警等)。跨境电商案例显示,使用工具后成本降低60%。核心观点:在AI时代,成本控制能力已成为企业核心竞争力。

今日大家都在搜的词: