首页 > 业界 > 关键词  > GPT4最新资讯  > 正文

腾讯AI实验室联合悉尼大学引入了GPT4Video 提升LLM的视频生成能力

2023-12-07 11:53 · 稿源:站长之家

要点:

1、GPT4Video是一个统一的多模型框架,使得大型语言模型具备视频理解和生成的能力。

2、GPT4Video提出了一种简单而有效的微调方法,以提高视频生成的安全性。

3、研究团队发布了数据集,以促进未来在多模态LLMs领域的研究。

站长之家(ChinaZ.com)12月7日 消息:最近在多模态大型语言模型(MLLMs)领域取得了显著进展,但在多模态内容生成方面仍存在明显的空白。为了填补这一空白,腾讯AI实验室和悉尼大学的合作引入了GPT4Video,这是一个统一的多模型框架,使得大型语言模型具备了视频理解和生成的独特能力。

GPT4Video的主要贡献可以总结如下:引入了GPT4Video,这是一个丰富LLMs能力的多功能框架,既可以进行视频理解,又可以进行生成;提出了一种简单而有效的微调方法,旨在提高视频生成的安全性,为常用的RLHF方法提供了一种吸引人的替代方案;发布了数据集,以促进未来在多模态LLMs领域的研究。

image.png

GPT4Video是对现有多模态大型语言模型(MLLMs)的局限性的回应,尽管这些模型擅长处理多模态输入,但在生成多模态输出方面存在不足。GPT4Video的架构包括三个重要组件:视频理解模块,利用视频特征提取器和视频摘要器在LLM的词嵌入空间中对视频信息进行编码和对齐。

LLM的基本结构,包括词嵌入器、多头自注意力机制和前馈神经网络,用于处理文本信息;视频生成模块,利用视频特征提取器和视频解码器从LLM的词嵌入空间中生成视频;安全微调方法,通过引入安全性目标和生成器的控制策略,提高视频生成的安全性。

GPT4Video的引入填补了多模态内容生成领域的空白,并且提供了一种统一的多模型框架,使得大型语言模型具备了视频理解和生成的能力。该研究还提出了一种简单而有效的微调方法,并发布了数据集,为未来的多模态LLMs研究提供了便利。

举报

  • 相关推荐
  • 小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

    小米手表S4 eSIM版与S4 Sport版正式上线,用户连接小米手机后可通过中国移动“一号双终端”业务实现手表与手机共享号码的便捷通信。目前云南、四川两省暂未开放,其他地区用户可通过小米运动健康App在线自助办理。办理需确保手表与手机连接,并在手表设置中开启移动网络开关,待eSIM数据传输完成后即可使用全部功能。其他支持eSIM的小米手表产品也在逐步认证中,未来将陆续开放服务。

  • Qwen登顶AI赚钱大赛只是开始?“弃GPT投Qwen”已在硅谷蔓延开来

    近期AI炒币大赛Alpha Arena引发关注,六款主流大模型用1万美元本金在币圈实战。戏剧性的是,被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重,而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶,DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen,投资人Chamath也承认将业务转向中国模型。市场用真金白银投票:预测平台押注Qwen胜率高达36%,远超OpenAI的3%。这场竞赛�

  • 真我GT8 Pro阿斯顿马丁F1限量版正式开售 售价5499元

    真我GT8 Pro阿斯顿马丁F1限量版于11月10日开售,售价5499元。配备16GB+1TB顶配内存,外观融入F1赛车元素,采用标志性青绿色和专属设计,包装盒含赛车主题配件。UI深度定制,拥有专属开机动画和相机水印。配置包括6.79英寸2K直屏、高通骁龙8至尊版平台、7000mAh电池,支持120W有线及50W无线闪充。影像系统搭载5000万像素主摄及2亿像素潜望长焦,支持多种胶片滤镜。具备满级防尘防水和超声波屏下指纹,综合性能强劲,专为科技与赛车爱好者打造跨界盛宴。

  • 华为Mate 70 Air配置价格公布:可选CPU 售价4199起

    华为Mate70 Air于11月6日10:08开启预售,提供麒麟9020B和9020A两款CPU版本,价格从4199元至5199元。机身仅6.6mm厚、208g重,配备7英寸OLED临境大屏,支持120Hz刷新率。影像系统包括后置四摄组合与前置1070万超广角镜头,内置6500mAh电池与66W快充。支持双向北斗卫星消息、Wi-Fi7,预装HarmonyOS 5.1系统。凭借轻薄设计、可选CPU及全面配置,有望引发市场关注。

  • 增长22.48%!海尔智家5年利润复合增长率TOP3最高

    三季度家电企业财报显示,海尔智家、美的集团表现突出。海尔连续多季度实现营收利润双增,Q3归母净利润增12.7%;美的营收增10.06%。其成功源于三方面:持续打造爆款产品如“懒人系列”洗衣机;数字化变革降本提效,费率优化0.2个百分点;深耕全球本土化运营,海外收入前三季度累计增10.5%。海尔通过创新与效率提升,在激烈市场竞争中保持领先地位。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 被AI引用才是真的流量:写出让GPT、Gemini主动引用的AI搜索友好型内容(实操清单 + 工具推荐)

    本文系统介绍生成式引擎优化(GEO)的核心方法,帮助内容从“给人看”升级为“AI友好型”。关键策略包括:1.采用结构化写作框架,在开头设置可直接回答问题的“黄金段落”;2.运用分步清单、数据标注、FAQ等模块提升内容引用率;3.通过多平台同步分发增加曝光;4.使用AIBase等工具量化监测内容被AI引用的频率与场景,并给出5天落地执行表。

  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • 苹果推出网页版App Store 浏览器即可使用

    苹果公司近日推出网页版App Store,用户无需依赖特定苹果设备,通过任意浏览器访问apps.apple.com即可浏览全平台应用。新版网页设计与原生App Store界面高度相似,功能丰富且交互流畅,取代了原先简单的登录页面。用户可通过左上角下拉菜单快速切换至iPhone、iPad等设备的专属应用页面,实现跨平台浏览。网页版完整移植了原生商店的“今日”标签页内容,包括编辑推荐、热门�

今日大家都在搜的词: