腾讯AI实验室联合悉尼大学引入了GPT4Video 提升LLM的视频生成能力

2023-12-07 11:53 · 稿源：站长之家

要点:
1、GPT4Video是一个统一的多模型框架，使得大型语言模型具备视频理解和生成的能力。
2、GPT4Video提出了一种简单而有效的微调方法，以提高视频生成的安全性。
3、研究团队发布了数据集，以促进未来在多模态LLMs领域的研究。

站长之家（ChinaZ.com）12月7日消息:最近在多模态大型语言模型（MLLMs）领域取得了显著进展，但在多模态内容生成方面仍存在明显的空白。为了填补这一空白，腾讯AI实验室和悉尼大学的合作引入了GPT4Video，这是一个统一的多模型框架，使得大型语言模型具备了视频理解和生成的独特能力。

GPT4Video的主要贡献可以总结如下:引入了GPT4Video，这是一个丰富LLMs能力的多功能框架，既可以进行视频理解，又可以进行生成;提出了一种简单而有效的微调方法，旨在提高视频生成的安全性，为常用的RLHF方法提供了一种吸引人的替代方案;发布了数据集，以促进未来在多模态LLMs领域的研究。

GPT4Video是对现有多模态大型语言模型（MLLMs）的局限性的回应，尽管这些模型擅长处理多模态输入，但在生成多模态输出方面存在不足。GPT4Video的架构包括三个重要组件:视频理解模块，利用视频特征提取器和视频摘要器在LLM的词嵌入空间中对视频信息进行编码和对齐。

LLM的基本结构，包括词嵌入器、多头自注意力机制和前馈神经网络，用于处理文本信息;视频生成模块，利用视频特征提取器和视频解码器从LLM的词嵌入空间中生成视频;安全微调方法，通过引入安全性目标和生成器的控制策略，提高视频生成的安全性。

GPT4Video的引入填补了多模态内容生成领域的空白，并且提供了一种统一的多模型框架，使得大型语言模型具备了视频理解和生成的能力。该研究还提出了一种简单而有效的微调方法，并发布了数据集，为未来的多模态LLMs研究提供了便利。

（举报）

相关推荐

关键词：

GPT4

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

小米手表S4 eSIM版与S4 Sport版正式上线，用户连接小米手机后可通过中国移动“一号双终端”业务实现手表与手机共享号码的便捷通信。目前云南、四川两省暂未开放，其他地区用户可通过小米运动健康App在线自助办理。办理需确保手表与手机连接，并在手表设置中开启移动网络开关，待eSIM数据传输完成后即可使用全部功能。其他支持eSIM的小米手表产品也在逐步认证中，未来将陆续开放服务。

小米手表S4 eSIM功能中国移动
荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

近期AI炒币大赛Alpha Arena引发关注，六款主流大模型用1万美元本金在币圈实战。戏剧性的是，被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重，而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶，DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen，投资人Chamath也承认将业务转向中国模型。市场用真金白银投票：预测平台押注Qwen胜率高达36%，远超OpenAI的3%。这场竞赛�

AI炒币大赛 Alpha Arena
真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

真我GT8 Pro阿斯顿马丁F1限量版于11月10日开售，售价5499元。配备16GB+1TB顶配内存，外观融入F1赛车元素，采用标志性青绿色和专属设计，包装盒含赛车主题配件。UI深度定制，拥有专属开机动画和相机水印。配置包括6.79英寸2K直屏、高通骁龙8至尊版平台、7000mAh电池，支持120W有线及50W无线闪充。影像系统搭载5000万像素主摄及2亿像素潜望长焦，支持多种胶片滤镜。具备满级防尘防水和超声波屏下指纹，综合性能强劲，专为科技与赛车爱好者打造跨界盛宴。

真我GT8Pro 阿斯顿马丁F1 限量版手机
华为Mate 70 Air配置价格公布：可选CPU 售价4199起

华为Mate70 Air于11月6日10:08开启预售，提供麒麟9020B和9020A两款CPU版本，价格从4199元至5199元。机身仅6.6mm厚、208g重，配备7英寸OLED临境大屏，支持120Hz刷新率。影像系统包括后置四摄组合与前置1070万超广角镜头，内置6500mAh电池与66W快充。支持双向北斗卫星消息、Wi-Fi7，预装HarmonyOS 5.1系统。凭借轻薄设计、可选CPU及全面配置，有望引发市场关注。

华为Mate70Air 麒麟9020B 麒麟9020A
增长22.48%！海尔智家5年利润复合增长率TOP3最高

三季度家电企业财报显示，海尔智家、美的集团表现突出。海尔连续多季度实现营收利润双增，Q3归母净利润增12.7%；美的营收增10.06%。其成功源于三方面：持续打造爆款产品如“懒人系列”洗衣机；数字化变革降本提效，费率优化0.2个百分点；深耕全球本土化运营，海外收入前三季度累计增10.5%。海尔通过创新与效率提升，在激烈市场竞争中保持领先地位。

三季报家电板块海尔智家
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

本文系统介绍生成式引擎优化(GEO)的核心方法，帮助内容从“给人看”升级为“AI友好型”。关键策略包括：1.采用结构化写作框架，在开头设置可直接回答问题的“黄金段落”；2.运用分步清单、数据标注、FAQ等模块提升内容引用率；3.通过多平台同步分发增加曝光；4.使用AIBase等工具量化监测内容被AI引用的频率与场景，并给出5天落地执行表。

AI搜索友好型内容创作 GEO Generative
荐谁能成为中国的ChatGPT？夸克抢先交卷

在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周，微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器，夸克则在国内推出了新的「对话助手」功能。这一系列消息背后，新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化，入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式，自然语言就是未来的编程语言。在海外市场，OpenA

AI浏览器 ChatGPT Atlas
颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

Utopai Studios推出专为影视制作设计的AI模型与工作流，区别于主流视频生成模型，其核心能力在于理解剧本、规划镜头及生成场景，通过自回归模型负责叙事规划与一致性约束，扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题，提升制作效率与作品品质。目前工作流仅用于公司自有项目，强调AI作为创作者协作者的角色，并遵循行业道德与版权规范。

AI影视制作 Utopai Studios
苹果推出网页版App Store 浏览器即可使用

苹果公司近日推出网页版App Store，用户无需依赖特定苹果设备，通过任意浏览器访问apps.apple.com即可浏览全平台应用。新版网页设计与原生App Store界面高度相似，功能丰富且交互流畅，取代了原先简单的登录页面。用户可通过左上角下拉菜单快速切换至iPhone、iPad等设备的专属应用页面，实现跨平台浏览。网页版完整移植了原生商店的“今日”标签页内容，包括编辑推荐、热门�

苹果 App Store

今日大家都在搜的词：

热文

3 天
7天

腾讯AI实验室联合悉尼大学引入了GPT4Video 提升LLM的视频生成能力

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

华为Mate 70 Air配置价格公布：可选CPU 售价4199起

增长22.48%！海尔智家5年利润复合增长率TOP3最高

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

荐谁能成为中国的ChatGPT？夸克抢先交卷

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

苹果推出网页版App Store 浏览器即可使用

今日大家都在搜的词：

热文

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

华为Mate 70 Air维修备件价格公布：换主板2499元

OPPO Reno15系列定档11月17日发布

鸿蒙智行：智界R7累计交付量破10万台

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

OPPO Reno15系列官宣11月10日发布

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

站长商机