革命性视频合成工具MAGVIT-v2 将视觉内容转化为大模型的标记

2023-10-12 11:53 · 稿源：站长之家

站长之家（ChinaZ.com）10月12日消息:最近，卡内基梅隆大学、Google研究以及乔治亚理工学院联合推出了一项名为MAGVIT-v2的视频标记工具，它成功地将图像和视频输入转化为大型语言模型（LLM）可识别的标记。

项目地址:https://magvit.cs.cmu.edu/

MAGVIT-v2的独特算法让开发者可以实现令人惊叹的应用。从全景视频到智能去除、图像转动动画，再到自动翻转等等。MAGVIT不仅为创作者提供无限灵感，还为视频编辑带来前所未有的便捷性。

通过MAGVIT-v2的应用，LLM在视觉生成任务中的表现已明显超越了传统的扩散模型。视频标记化是将视觉内容（如图像或视频）转化为大型语言模型能够理解和处理的标记的过程。MAGVIT-v2的问世，毫无疑问为大型语言模型在视觉任务方面提供了崭新的机遇。

在视觉生成任务方面，这一新型标记工具已经展现出极大的潜力，可以明显改善模型的表现。总的来看，MAGVIT-v2的发布，预示着视觉生成领域的一次重大突破。

（举报）

相关推荐
大家在看

关键词：

视频合成

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
微软推出新型AI工具VASA-1：可将照片转化为视频

微软亚洲研究院近期推出了一款革命性的人工智能工具VASA-1，这一工具的推出引起了业界和公众的广泛关注。VASA-1的独特之处在于，它能够将静态图像或绘画与音频文件结合，生成具有动态面部表情和头部动作的面孔。但令人惊讶的是，这一工具不仅适用于真实面孔的训练可以应用于艺术照片，如《蒙娜丽莎》等。

人工智能微软亚洲研究院 VASA-1
斯坦福团队大模型Octopus v2火了：手机就能运行准确性超越GPT-4

斯坦福大学研究人员发布的Octopusv2模型引起了开发者社区的极大关注，其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行，并在准确性和延迟方面表现超越了GPT-4，同时将上下文长度减少了95%。设备端AI智能体时代即将到来，Octopusv2的发布为这一趋势注入了新的活力。

Octopusv2 AI头条
荐AI日报：最强大模型Llama 3发布；Midjourney推社交新功能Room；超强AI视频自动剪辑工具Captions；手机上可以玩大模型了

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、最强大模型Llama3正式发布Llama3是Meta公司最新发布的开源模型，拥有80亿和700亿参数规模，预计7月正式发布。教师免费使用该AI平台设计个性化课堂体验，提供实时洞察力支持学�

Llama3
斯坦福推可以在手机端跑的大模型 Octopusv2超越GPT-4一夜爆火

斯坦福大学的研究团队近日推出了一款名为Octopusv2的新型人工智能模型，这款模型以其在端侧设备上的强大运行能力受到广泛关注。论文:Octopusv2:On-devicelanguagemodelforsuperagent论文地址:https://arxiv.org/abs/2404.01744模型主页:https://huggingface.co/NexaAIDev/Octopus-v2Octopusv2的推出，标志着设备端AI智能体时代的来临。对于那些对AI技术充满热情的开发者和企业来说，Octopusv2无疑提供了一个全新的�

Octopusv2
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

MetaAI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果，证明了其在多模态视频理解应用中的有效性和多功能性。

MA-LMM AI头条
万兴天幕大模型4月28日公测文生视频支持60秒+内容

万兴科技公布其旗下音视频多媒体大模型——万兴“天幕”将于4月28日迎来公开测试阶段。公司副总裁朱伟指出，尽管大模型在文本和图像领域已经实现了生产力的商业化应用，但在音视频领域，由于数据集不足、视频内容结构复杂、算力成本高昂等问题，其成熟应用仍需时间。特别是在文生视频方面，该模型已能够实现不同风格、场景及主题的连贯性生成，且支持一键生成60

AI视频视频大模型音视频多媒体
讯飞星火大模型V3.5升级推出长文本、长图文、长语音大模型

科大讯飞今日发布重大更新，讯飞星火大模型V3.5升级，不仅推出了首个长文本、长图文、长语音大模型首次将多情感超拟人合成技术引入市场，并同步推出了星火智能体平台。这一系列创新举措，旨在为招投标应用和合同应用提供更为强大的技术支持。插件市场和原生应用也为开发者和用户提供更多功能和工具选择，共同构建讯飞星火大模型生态。

科大讯飞讯飞星火大模型V3.5 多情感超拟人合成技术
文本直接生成2分钟视频，即将开源模型StreamingT2V

Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出了StreamingT2V视频模型。通过文本就能直接生成2分钟、1分钟等不同时间，动作一致、连贯、没有卡顿的高质量视频。视频中的物体运动姿态丰富，场景和物体随时间的演变更加自然流畅，没有突兀的断层或冻结情况出现。

人工智能视频模型文本生成
百度正式发布文心大模型4.0工具版

文心大模型4.0的工具版正式问世。这款大模型在通用能力上取得了显著进步，特别是在代码生成、解释和优化等方面，已经达到国际先进水平。文心大模型4.0的工具版的发布，将为广大用户带来更加便捷、高效的AI体验，助力各行各业实现智能化升级。

百度AI 大模型4.0 代码生成
Domo AI推视频色度抠图功能可将扣出的人物合成到新背景中

DomoAI近日推出了一项新功能，用户现在可以通过“--key”命令扣出主体人物后更换对应颜色的背景。这一功能的引入，无疑为用户带来了更多的便利和创作空间。DomoAI的这一新功能，无疑为用户提供了更多的创作自由度，使得视频和移动创作变得更加便捷和个性化。

Domo AI头条

今日大家都在搜的词：

热文

3 天
7天

革命性视频合成工具MAGVIT-v2 将视觉内容转化为大模型的标记

今日大家都在搜的词：

热文

站长商机