百度推出视频生成模型UniVG 可处理各种文本和图像的组合输入

2024-01-19 10:07 · 稿源：站长之家

站长之家（ChinaZ.com）1月19日消息:百度推出的UniVG是一款视频生成模型，其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式，以更好地平衡两者之间的关系。

项目地址：https://top.aibase.com/tool/univg

项目演示页面:https://univg-baidu.github.io/

视频生成技术基于“扩散”原理的方法近来在学术和产业界引起广泛关注，并取得显著成就。然而，目前这一领域主要集中在单一目标或单一任务的视频生成上，例如根据文本、图片或它们的组合生成视频。但这样的方法并不能完全满足真实世界多变的应用需求。用户通常需要更灵活的输入方式，如单独使用图像或文本，或将二者结合起来。

为了解决这一问题，百度提出了UniVG，一种“统一模态视频生成系统”，能够处理各种文本和图像的组合输入。该系统重新定义了视频生成模型中的多项任务，将它们划分为“高自由度生成”和“低自由度生成”两大类。在高自由度视频生成方面，采用了“多条件交叉注意力”技术，以生成与输入的图像或文本语义高度一致的视频。而在低自由度视频生成方面，引入了“偏置高斯噪声”，这种方法相较于传统的完全随机高斯噪声更能有效地保留输入条件的原始内容。

技术性能方面，UniVG在MSR-VTT视频数据库上表现出色，获得了最低的帧间视频差异性度量（Frame Video Distance， FVD）。这一成绩不仅超越了当前的开源方法，还与业界领先的闭源方法Gen2不相上下，显示出了卓越的实用价值和技术优势。

（举报）

相关推荐

关键词：

Sora App的AI视频社交，给了百度们新希望

Sora2发布两周后，百度的蒸汽机AI视频模型，和谷歌Veo3.1撞了档期。两家公司选择同期发布并非有多默契，而是Sora2带来的压迫感促使它们不得不加快脚步。奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”，不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃，还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。这无疑是扔在AI视�

文章搜索核心标签 AI视频模型
荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

本期AI日报聚焦多领域技术突破：美团发布全模态交互模型LongCat-Flash-Omni；阿里通义千问Qwen3-Max上线深度思考功能；百度文心5.0升级多模态生成能力；谷歌确认Gemini3年内发布并整合至苹果Siri；OpenAI向多国开放Sora2视频工具；云存储与AI开发工具持续优化，展现行业加速迭代态势。

AI 多模态实时交互
百度智能云这项开源，让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

10月28日，百度智能云联合SGLang社区开源针对DeepSeek-V3.2优化的多token预测（MTP）技术代码。该技术通过批量生成和集中验证机制，使模型解码吞吐量提升超2倍，突破传统自回归解码的序列化瓶颈。此次开源的MTP方案已完成与DeepSeek-V3.2稀疏注意力架构的深度适配，并经过百度内部业务验证，开发者可"开箱即用"获得稳定可靠的推理加速能力。

百度智能云 DeepSeek-V3.2 MTP技术
百度百科词条总量突破3000万，联合《大学科普》等多机构推出科普专刊

10月24日，百度百科联合《大学科普》推出“繁星计划”主题专刊，作为该刊2025年第3期面向全国高校发行，助力权威科普传播。同日，繁星计划新增北京林业大学林学院等5家合作机构，扩大行业影响力。该计划自2024年12月启动，已联合10万专家、500家机构共建超100万专业词条，百度百科词条总量突破3000万。通过与权威期刊合作，百度百科旨在为高校学子搭建连接前沿科学与知识普及的桥梁，践行“让知识轻松可及”的使命。

百度百科繁星计划知识传播
荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
实时调度36万真人医生，百度健康AI管家有医靠更可信

10月18日，百度健康发布AI健康管家，首创“AI+真人”双保障模式。该产品在训练阶段引入36万医生标注数据，生成建议后由真人医生二次核验，确保专业安全。覆盖诊前、诊中、诊后全环节，提供数十项AI功能，包括科普问答、用药咨询、报告解读等。用户可通过百度APP搜索使用，定位为7*24小时个人健康助手，有效解决在线医疗服务时效性难题。

百度健康AI管家 AI+真人协同 AI健康助手
百度网盘正式适配安卓实况照片：iOS和安卓可跨系统互传

近日，百度网盘针对安卓用户推出重磅功能更新，正式适配安卓系统实况照片（Live Photo）的存储与播放需求，一举解决安卓阵营长期存在的动态照片管理痛点。此次升级不仅实现了iOS与安卓设备间实况照片的无障碍互传，更在画质保留、格式兼容等方面带来突破性体验。据更新日志显示，安卓用户上传实况照片至百度网盘后，可直接在
百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

百度搜索近日宣布对文心助手进行全面升级，显著增强其AIGC多模态创作与智能任务解决能力。目前，该平台已支持AI图片、视频、音乐、播客等8种内容形态的生成，并支持用户一键调用多种工具，应对生活、健康、教育、工作等多场景需求。数据显示，百度搜索用户通过文心助手日均生成的AIGC内容量已突破千万。与此同时，百度还发布了行业首个开放式实时互动数字人智�

百度搜索文心助手 AIGC
AI搜索优化工具推荐:如何免费检测品牌在AI回答中的可见度?

随着AI搜索崛起，71%美国用户通过AI研究购买决策，ChatGPT日查询超10亿次。传统SEO面临挑战：58.5%谷歌搜索已成"零点击"，用户看完AI摘要即离开。品牌若未进入AI推荐列表，将失去新流量入口。建议使用AIBase等工具监控国内五大AI平台曝光数据，重点关注高价值问题下的推荐质量，通过可视化数据优化内容策略，建立GEO（生成引擎优化）闭环。
免费！AI对话式搜索词挖掘工具，一键检测品牌在AI搜索中的可见度

本文探讨在AI搜索时代如何提升品牌、产品或内容的AI推荐可见度。关键在于挖掘AI对话式搜索词并优化内容，避免因未被AI抓取或排名靠后导致流量损失。推荐使用AIBase平台的GEO排名查询工具，免费检测品牌在主流AI搜索中的曝光度、排名及竞品对比，并提供优化建议，帮助抢占AI流量高地。该工具覆盖多平台，操作简单，适合企业、内容创作者及电商使用。

AI搜索品牌优化内容推荐

今日大家都在搜的词：

热文

3 天
7天

百度推出视频生成模型UniVG 可处理各种文本和图像的组合输入

Sora App的AI视频社交，给了百度们新希望

荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

百度智能云这项开源，让 DeepSeek-V3.2 推理服务吞吐提升 2 倍

百度百科词条总量突破3000万，联合《大学科普》等多机构推出科普专刊

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

实时调度36万真人医生，百度健康AI管家有医靠更可信

百度网盘正式适配安卓实况照片：iOS和安卓可跨系统互传

百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

AI搜索优化工具推荐:如何免费检测品牌在AI回答中的可见度?

免费！AI对话式搜索词挖掘工具，一键检测品牌在AI搜索中的可见度

今日大家都在搜的词：

热文

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

真我GT8 Pro阿斯顿马丁F1限量版将于11月10日正式开售

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

真我GT8 Pro阿斯顿马丁F1限量版外观公布

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

OPPO ColorOS 16正式版推送：首批适配11款机型

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

鸿蒙智行：全新问界M7上市36天交付破20000台

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

苹果客服回应iPhone或自动拨号：设置或其他问题

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

站长商机