首页 > 业界 > 关键词  > GPT4Video最新资讯  > 正文

腾讯与悉尼大学联手打造GPT4Video:显著提升大语言模型视频生成能力

2023-12-07 09:14 · 稿源:站长之家

**划重点:**

1. 🤖 **GPT4Video简介:** 腾讯与悉尼大学合作推出GPT4Video,这是一个统一的多模态框架,赋予大型语言模型(LLMs)独特的视频理解和生成能力。

2. 🧠 **技术亮点:** GPT4Video通过引入视频理解模块、LLM主体和视频生成组件,弥补了现有多模态语言模型在生成多模态输出方面的不足。

3. 🌐 **实验证明:** GPT4Video在多个多模态基准测试中表现出色,包括开放式问答、视频字幕和文本到视频生成,彰显其在整合先进视频理解和生成功能方面的卓越性能。

站长之家(ChinaZ.com)12月7日 消息:在多模态大型语言模型(MLLMs)领域取得显著进展的同时,尽管在输入端多模态理解方面取得了显著进展,但在多模态内容生成领域仍存在明显的空白。为填补这一空白,腾讯人工智能实验室与悉尼大学联手推出了GPT4Video,这是一个统一的多模态框架,赋予大型语言模型(LLMs)独特的视频理解和生成能力。

研究团队的主要贡献可以总结如下:

1.引入了GPT4Video,这是一个多功能框架,为LLMs提供了视频理解和生成的能力。

2. 提出了一种简单而有效的微调方法,旨在增强视频生成的安全性,成为常用RLHF方法的一种吸引人的替代方案。

3. 释放数据集,以促进未来在多模态LLMs领域的研究。

image.png

GPT4Video是对现有多模态大型语言模型(MLLMs)局限性的回应,尽管这些模型在处理多模态输入方面表现出色,但在生成多模态输出方面存在不足。GPT4Video的架构包括三个重要组件:

1. **视频理解模块:** 利用视频特征提取器和视频摘要生成器,将视频信息编码并对齐到LLM的词嵌入空间。

2. **LLM主体:** 借鉴LLaMA结构,采用参数高效微调(PEFT)方法,特别是LoRA,同时保留原始预训练参数。

3. **视频生成组件:** 通过精心构建的指令跟踪数据集,使LLM生成模型库中模型的提示。

团队首先利用冻结的ViT-L/14模型捕捉原始视频特征,然后使用视频抽象模块在时间和空间轴上压缩视频信息。GPT4Video的核心由冻结的LLaMA模型驱动,通过LoRA和自定义的视频中心化、安全对齐数据进行高效微调。这使其能够理解视频并生成适当的视频提示,随后用于从Textto-Video模型库中生成视频。

在各种多模态基准测试中的实验结果,包括开放式问答、视频字幕和文本到视频生成,验证了GPT4Video的有效性和普适性。此外,GPT4Video展示了利用LLMs强大的上下文摘要和文本表达能力为视频生成详细提示的能力。

image.png

GPT4Video通过整合先进的视频理解和生成功能,显著提升了大型语言模型的性能。其在多模态基准测试中表现出色进一步强调了其卓越性能。

该项目网址:https://github.com/gpt4video/GPT4Video

论文网址:https://arxiv.org/abs/2311.16511

举报

  • 相关推荐
  • 豆包视频生成模型Seedance 1.0 lite发布:“迅速生成影视级的视频

    火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品:1)Seedance 1.0 lite视频生成模型,支持5-10秒480P/720P视频生成,具备影视级画质和生成速度优势,适用于电商广告、影视创作等场景;2)豆包1.5视觉深度思考模型,仅20B参数但具备多模态理解能力,在60项基准测试中38项达SOTA水平;3)升级版豆包音乐模型,新增英文歌曲创作功能,并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

  • 持续霸榜!可灵2.0模型登顶全球视频生成大模型榜单

    快手旗下可灵AI 2.0模型在权威AI评测中表现优异,以1124分超越自研1.6版本,连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示,自2023年6月上线以来,可灵AI全球用户突破2200万,月活激增25倍,累计生成视频1.68亿个、图片3.44亿张。商业化方面,其单月流水已超千万元,并与伊利、vivo等头部品牌达成深度合作,展现出AI视频生成技术的广阔商业前景。

  • 腾讯混元视频生成工具全新开源:人物不会“变脸” 物体不会“漂移”

    腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造,支持文本、图像、音频等多模态输入,能生成高质量定制视频。主要功能包括:单/多主体视频生成、视频配音、局部编辑等,在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景,如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源,其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • AI日报:腾讯语音数字人模型HunyuanVideo-Avatar;Trae国际版开启付费订阅模式;Claude网页搜索功能全面开放

    本文汇总了AI领域最新动态:1)腾讯开源数字人模型HunyuanVideo-Avatar,支持图像转视频创作;2)Trae国际版开启付费订阅,首月3美元;3)Claude网页搜索功能向免费用户开放;4)印度AI初创Builder.ai破产,亏损超5亿美元;5)腾讯元宝接入微信读书平台;6)快手计划加大AI投入但预计影响利润率;7)Mistral推出智能代理API;8)Claude移动端上线语音对话测试版;9)OpenAI拟推ChatGPT第三方登录功能;10)掘金发布AI项目一键部署工具;11)多模态模型视觉推理能力评估显示准确率仅25.8%;12)中石油发布3000亿参数昆仑大模型,推动油气产业智能化。

  • 从足球公益到数字赋能,SnackVideo连续两年于印尼落地乡村公益活动

    近日,由快手旗下专注印尼市场的短视频平台 SnackVideo 发起的 2025 年首场乡村公益活动在万丹省唐格朗市 Legok 区 Babakan 村圆满举行。此次活动不仅为当地村民带来了欢乐与希望,更展现了SnackVideo助力印尼乡村振兴的决心与担当。

  • ChatGPT重磅升级GPT-4.1:编程专家模型登场

    OpenAI于5月15日正式推出GPT-4.1模型,采用差异化推送策略:付费用户可体验完整版,普通用户使用轻量级GPT-4.1 mini。新版模型在编程任务表现突出,能精准遵循指令,避免冗长输出。测试显示其响应速度提升30%,输出稳定性提高40%,部分性能超越GPT-4o。同时OpenAI宣布将斥资30亿美元收购编程工具Windsurf,强化开发者生态,与Google同日发布的Gemini-GitHub形成直接竞争。两大巨头的动作标志着AI编程助手进入生态竞争新阶段。

热文

  • 3 天
  • 7天