腾讯与悉尼大学联手打造GPT4Video:显著提升大语言模型视频生成能力

2023-12-07 09:14 · 稿源：站长之家

**划重点:**
1. 🤖 **GPT4Video简介:** 腾讯与悉尼大学合作推出GPT4Video，这是一个统一的多模态框架，赋予大型语言模型（LLMs）独特的视频理解和生成能力。
2. 🧠 **技术亮点:** GPT4Video通过引入视频理解模块、LLM主体和视频生成组件，弥补了现有多模态语言模型在生成多模态输出方面的不足。
3. 🌐 **实验证明:** GPT4Video在多个多模态基准测试中表现出色，包括开放式问答、视频字幕和文本到视频生成，彰显其在整合先进视频理解和生成功能方面的卓越性能。

站长之家（ChinaZ.com）12月7日消息:在多模态大型语言模型（MLLMs）领域取得显著进展的同时，尽管在输入端多模态理解方面取得了显著进展，但在多模态内容生成领域仍存在明显的空白。为填补这一空白，腾讯人工智能实验室与悉尼大学联手推出了GPT4Video，这是一个统一的多模态框架，赋予大型语言模型(LLMs)独特的视频理解和生成能力。

研究团队的主要贡献可以总结如下:

1.引入了GPT4Video，这是一个多功能框架，为LLMs提供了视频理解和生成的能力。

2. 提出了一种简单而有效的微调方法，旨在增强视频生成的安全性，成为常用RLHF方法的一种吸引人的替代方案。

3. 释放数据集，以促进未来在多模态LLMs领域的研究。

GPT4Video是对现有多模态大型语言模型（MLLMs）局限性的回应，尽管这些模型在处理多模态输入方面表现出色，但在生成多模态输出方面存在不足。GPT4Video的架构包括三个重要组件:

1. **视频理解模块:** 利用视频特征提取器和视频摘要生成器，将视频信息编码并对齐到LLM的词嵌入空间。

2. **LLM主体:** 借鉴LLaMA结构，采用参数高效微调（PEFT）方法，特别是LoRA，同时保留原始预训练参数。

3. **视频生成组件:** 通过精心构建的指令跟踪数据集，使LLM生成模型库中模型的提示。

团队首先利用冻结的ViT-L/14模型捕捉原始视频特征，然后使用视频抽象模块在时间和空间轴上压缩视频信息。GPT4Video的核心由冻结的LLaMA模型驱动，通过LoRA和自定义的视频中心化、安全对齐数据进行高效微调。这使其能够理解视频并生成适当的视频提示，随后用于从Textto-Video模型库中生成视频。

在各种多模态基准测试中的实验结果，包括开放式问答、视频字幕和文本到视频生成，验证了GPT4Video的有效性和普适性。此外，GPT4Video展示了利用LLMs强大的上下文摘要和文本表达能力为视频生成详细提示的能力。

GPT4Video通过整合先进的视频理解和生成功能，显著提升了大型语言模型的性能。其在多模态基准测试中表现出色进一步强调了其卓越性能。

该项目网址:https://github.com/gpt4video/GPT4Video

论文网址:https://arxiv.org/abs/2311.16511

（举报）

相关推荐

关键词：

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

2025年9月29日，深度求索公司发布新一代模型架构DeepSeek-V3.2，引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本，在V3.1-Terminus基础上引入稀疏注意力机制，优化长文本训练和推理效率。目前官方应用端已同步更新，API大幅降价。此次模型体积达671GB，下载需8-10小时。业内专家指出，此次快速适配表明双方早有深度技术协�

DeepSeek-V3.2 大模型架构稀疏注意力机制
OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
荐AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

本文汇总了近期AI领域多项重要进展：生数科技推出Vidu Q2模型，显著提升视频生成中细微表情的真实感；火山引擎发布炉米Lumi平台，支持视觉模型LoRA微调以定制独特风格；阿里云通义千问开源超300个模型，下载量突破6亿次；百度开源多模态视觉理解模型Qianfan-VL，适配不同场景需求；微软在Copilot中引入Anthropic模型，拓展AI助手功能；OpenAI计划在美国新建五个数据中心以加速Stargate项目；英伟达开源Audio2Face模型，提升实时面部动画生成效果；Meta发布具备沙箱推演能力的32B代码世界模型CWM，优化代码调试效率。这些动态展示了AI技术在视觉、多模态、开源生态及硬件支持等方面的快速迭代与创新突破。

AI 视频生成细微表情
性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

百度发布超轻量级文字识别模型PP-OCRv5，仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型，尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别，适用于教育、医疗、法律等多行业数字化需求，累计下载量超900万，是GitHub上唯一Star数超5万的中国OCR项目。

PP-OCRv5 轻量级OCR 文字识别模型
美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

云栖大会 Qwen3-Max 通义千问
一图读懂真我GT8 Pro 2K 144Hz苍穹屏：为玩家打造神级好屏

真我GT8+ Pro屏幕参数全面曝光，搭载2K 144Hz“苍穹屏”，行业首发4000nit阳光显示，峰值亮度达7000nit。采用京东方Q10+发光材料，支持360Hz四指触控采样率与3200Hz瞬时触控，响应更快。首发1nit极暗护眼技术，支持全应用适配，并引入真彩护眼低蓝光方案，色彩准确度提升64.8%。全亮度DC调光默认开启，SVM频闪指标低至0.07。真我中国区总裁徐起表示，随着电池容量升级至7K mAh级别，2K屏功耗问题得到平衡，这将是同价位最佳屏幕之一。新机预计十月发布。

真我GT8 Pro 2K
荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

本期AI日报聚焦多领域技术突破：京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”，推动物流行业迈向自主执行；DeepSeek推出V3.1终结版，修复漏洞并为V4架构铺路；Kimi上线Agent模式“OK Computer”，支持智能网站开发等复杂任务；ChatGPT新增个性化资讯功能，定制用户专属新闻；Exa Code发布代码索引工具，助力AI代理精准生成代码；Meta推出AI视频创作平台Vibes，简化短视频制作；蚂蚁数科发布隐私保护AI框架Gibbon，推理速度提升超百倍；OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平，覆盖九大行业44种职业。

京东物流超脑大模型2.0 异狼具身智能机械臂系统
中国数智财政市场第一！太极华青持续登顶IDC榜单

IDC报告显示，太极华青凭借预算管理一体化建设优势及AI、数据要素创新应用，连续四年蝉联中国数智财政市场第一。公司通过业务整合、流程再造与数据赋能，构建覆盖预算全周期管理体系，并推出行业垂类大模型，提供智能问答、报销、数据分析等服务，推动财政管理智能化升级。未来将持续强化数据与AI能力，助力数智财政建设。

数智财政预算管理一体化人工智能
百度文心大模型X1.1正式发布：超越DeepSeek R1、打平GPT-5

今天，在WAVE SUMMIT深度学习开发者大会2025上，百度文心大模型X1.1正式发布，在事实性、指令遵循、智能体等能力上均提升显著。百度王海峰介绍，文心大模型X1是基于文心大模型4.5训练而来的深度思考模型，升级后的X1.1主要采用了迭代式混合强化学习训练框架。一方面通过混合强化学习，同时提升通用任务和智能体任务的效果；另一方面通过自蒸馏数据的迭代式生产及训练

百度文心大模型深度学习智能体

今日大家都在搜的词：

热文

3 天
7天

腾讯与悉尼大学联手打造GPT4Video:显著提升大语言模型视频生成能力

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

荐AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

一图读懂真我GT8 Pro 2K 144Hz苍穹屏：为玩家打造神级好屏

荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

中国数智财政市场第一！太极华青持续登顶IDC榜单

百度文心大模型X1.1正式发布：超越DeepSeek R1、打平GPT-5

今日大家都在搜的词：

热文

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

雷军：小米17 Pro Max很多门店已经缺货

iPhone调休闹钟上热搜苹果客服回应：需手动设置

雷军晒第100次健身打卡提前3个月完成健身目标

京东双11购物节官宣：10月9日晚8点开启

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

卢伟冰称小米17首销结果很不错并回应小米17为何最初无1TB

小米澎湃OS 3穿戴设备适配升级计划公布：10月开启推送

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

理想i6正式上市：首销直减1万限时售价23.98万元

AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问

小米17系列开售5分钟破25年国产手机首销纪录

雷军大方推荐友商产品：不买YU7 可以考虑Model Y和理想i6

雷军称没什么好犹豫的：50岁正是闯的年纪

小米非常非常缺人上热搜雷军谈小米成功秘诀

李想感谢雷军夸理想： “67Y”一起加电

站长商机