Meta首发AI视频模型V-JEPA 可用人类的理解方式看世界

2024-02-18 14:32 · 稿源：站长之家

**划重点:**
🌐 Sora被LeCun质疑不能真正理解物理世界，引发论战。
🎥 Meta推出V-JEPA，非生成式模型，通过视频预测模型实现高效的世界理解。
🚀 V-JEPA在冻结评估上表现出色，可用于多个任务，标注使用效率优于其他模型。

站长之家（ChinaZ.com）2月18日消息:近日，深度学习领域泰斗LeCun在WGS峰会上怒斥Sora模型不能真正理解物理世界，引起广泛关注。他指出，仅根据文字提示生成逼真的视频，并不代表模型理解了物理世界，与基于世界模型的因果预测有本质区别。

LeCun进一步解释，视频生成系统成功的标准是创造一个合理的样本，而真实视频的合理发展路径相对较少，尤其在特定动作条件下难度更大。他提出了联合嵌入预测架构（JEPA）的核心思想，强调生成后续内容的抽象表示，去除与行动无关的细节。

与此同时，LeCun展示了Meta公司发布的V-JEPA，一个非生成式模型，以人类的理解方式看世界。通过在抽象空间中预测视频中被遮挡或缺失的部分，V-JEPA在冻结评估上表现出色，可用于多个任务，标注使用效率优于其他模型。

V-JEPA采用自监督学习方式，仅依靠未标记的数据进行预训练，然后通过标记数据微调模型。研究人员在视频中遮挡大部分内容，要求预测器补全缺失的内容，以一种抽象的描述形式在表示空间中填充内容。

值得一提的是，V-JEPA是首个在冻结评估上表现出色的视频模型，为模型学习新技能提供了高效快速的方法。研究还表明，V-JEPA在标注使用效率上优于其他模型，尤其在标注样本减少时表现更为出色。

虽然V-JEPA主要集中于视频的「视觉元素」，Meta公司表示下一步研究方向将包括同时处理视频中的「视觉和音频信息」的多模态方法。LeCun认为，V-JEPA是迈向对世界更深刻理解的关键一步，使机器能够进行更广泛的推理和规划。

V-JEPA的发布不仅是对Sora的回击，更展示了Meta公司在AI领域的先进技术，为实现具身AI技术和未来增强现实（AR）眼镜提供了有力支持。

V-JEPA模型的特色亮点功能包括:

视频理解能力: V-JEPA是一个非生成模型，通过在抽象表示空间中预测视频中缺失或遮挡的部分来学习。它在检测和理解物体之间高度详细的互动方面表现出色。
自监督学习方法: V-JEPA完全使用未标记的数据进行预训练，仅在预训练后才使用标签来适应特定任务。这种方法在减少所需标记样本数量和学习未标记数据方面显示出更高的效率。
遮蔽方法: V-JEPA采用一种特殊的遮蔽方法，通过在空间和时间上遮蔽视频的部分来迫使模型学习和发展对场景的理解。这有助于使模型更好地理解视频中的复杂互动。
抽象表示空间预测: V-JEPA通过在抽象表示空间中进行预测，使模型能够专注于视频包含的更高级别的概念信息，而无需关注像素级的细节。
低次冻结评估: V-JEPA是第一个在“冻结评估”中表现出色的视频模型，通过对编码器和预测器进行自监督预训练，然后仅在需要适应新技能时训练一个小型轻量级的专用层或网络。
多任务应用: V-JEPA的自监督方法使其能够适用于各种下游图像和视频任务，如图像分类、动作分类和时空动作检测，而无需调整模型参数。
未来研究方向: 该模型的未来方向包括采用更多模态的方法，如结合音频和视觉。此外，团队计划探索如何将V-JEPA的理解和规划能力应用于更长时间范围的视频任务。

项目介绍网址：https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
报告称：OpenAI和Meta即将发布具有人类推理能力的AI模型

OpenAI和Meta据称正在准备发布更先进的AI模型，这些模型将能够帮助解决问题并承担更复杂的任务。OpenAI的首席运营官BradLightcap告诉《金融时报》，公司下一个版本的GPT将在解决"困难问题"方面取得进展，例如推理。马斯克表示，"有感知计算的总量"——这个概念可能指的是AI独立思考和行动——将在五年内超过所有人类。

OpenAI Meta AI模型
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

MetaAI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果，证明了其在多模态视频理解应用中的有效性和多功能性。

MA-LMM AI头条
Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

MetaAI研究人员今天发布了OpenEQA，这是一个新的开源基准数据集，旨在衡量人工智能系统对“体验式问答”的能力——这种能力使人工智能系统能够理解现实世界，从回答有关环境的自然语言问题。这一数据集被Meta定位为“体验智能”领域的关键基准，其中包含超过1，600个关于180多个真实环境的问题。为了衡量人工智能代理的性能，研究人员使用大型语言模型自动评分，衡量人工智能生成的答案与人类答案的相似程度。

Meta OpenEQA AI头条
荐全球首个「开源GPT-4」出世！Llama 3震撼发布，Meta AI免登录可用

LLM界的「真·OpenAI」，又来整顿AI圈了!业内惊呼:首个开源GPT-4级的模型，终于来了!开源模型追上闭源模型的历史性一刻，或许就在眼前了?一石激起千层浪，Llama3才刚刚发布没几小时，就破纪录地登顶了HuggingFace排行榜。Meta共开源了Llama38B和Llama370B两款模型，分别有预训练和指令微调两个版本。MetaAI即将在Quest头显中推出。

开源GPT-4 Llama3 Meta
扎克伯格称 Meta 需要数年才能从生成式 AI 赚钱

在Meta的首季度财报电话会议上，CEO马克・扎克伯格向投资者表示，生成式AI的热潮已经到来，但不要指望它能很快带来利润。Meta公司净利润在上个季度已经达到120亿美元，营收为365亿美元，但未来其营收增长有望放缓，同时在AI和元宇宙方面的支出也创下历史新高。但现在似乎很明显，时尚AI眼镜也有一个有意义的市场无需显示屏。

Meta 生成式AI AI头条
Meta将为智能眼镜引入强大AI功能

Meta将在4月为其Ray-Ban智能眼镜引入一系列相当强大的AI功能。这些新功能将允许用户通过一个简单的命令快速识别他们正在查看的物体。这些新功能无疑将为用户带来更加便捷、实用的智能眼镜体验。

Meta AI头条
Meta 在 WhatsApp 中加入实时AI图像生成功能

当用户在与MetaAI的聊天中开始输入文本到图像的提示时，将看到随着添加更多关于想创建的内容的细节，图像如何变化。在Meta分享的示例中，一个用户输入了提示:“想象一场在火星上进行的足球比赛。这一新功能是Meta在其所有应用程序中推出AI功能的一部分，包括WhatsApp、Instagram、Facebook和Messenger。

WhatsApp Meta AI图像生成
Meta 推出 ViewDiff 模型：文本生成多视角 3D 图像

Meta与德国慕尼黑工业大学研发出创新模型ViewDiff，旨在帮助用户通过文本、图像或二者结合使用，快速生成高质量多视角3D图像。该模型解决了传统文本生成多视角3D图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。该模型的推出不仅在技术层面上具有重大意义，也将为未来的3D图像生成领域带来更多创新可能。

ViewDiff AI头条
纽约时报指责OpenAI、谷歌和Meta绕过法律边界进行AI训练数据

OpenAI、谷歌和Meta被指控在训练人工智能模型时存在不当行为。纽约时报的报告指出，OpenAI使用名为Whisper的语音识别工具从YouTube视频中转录音频，并据称OpenAI员工曾讨论这一行为可能违反视频网站的规则。纽约时报的报道引起了关于AI公司训练数据的合法性和道德性的讨论，也凸显了AI行业在数据获取方面面临的挑战和争议。

OpenAI AI训练 AI头条
破解36年前魔咒！Meta推出反向训练大法消除大模型「逆转诅咒」

【新智元导读】大语言模型的「逆转诅咒」，被解开了。来自MetaFAIR的研究人员推出了反向训练大法，让模型从反方向上学到了事实之间的逻辑，终于改进了这个困扰人们已久的问题。36年前的预言1988年，Fodor和Pylyshyn在《认知》刊物上发了一篇关于思维的系统性的文章。

Meta 大模型

FaceChain:深度学习工具链，用于生成你的数字孪生体。

FaceChain是一个深度学习工具链，由ModelScope提供支持，能够通过至少1张肖像照片生成你的数字孪生体，并在不同设置中生成个人肖像（支持多种风格）。用户可以通过FaceChain的Python脚本、熟悉的Gradio界面或sd webui来训练数字孪生模型并生成照片。FaceChain的主要优点包括其生成个性化肖像的能力，支持多种风格，以及易于使用的界面。

深度学习数字孪生个性化

Huggingface 镜像站:一个公益项目，致力于帮助国内AI开发者快速、稳定的下载模型、数据集。

HuggingFace镜像站是一个非盈利性项目，旨在为国内的AI开发者提供一个快速且稳定的模型和数据集下载平台。通过优化下载过程，减少因网络问题导致的中断，它极大地提高了开发者的工作效率。该镜像站支持多种下载方式，包括网页直接下载、使用官方命令行工具huggingface-cli、本站开发的hfd下载工具以及通过设置环境变量来实现非侵入式下载。

AI 机器学习数据集

WebLlama:构建能够根据指令浏览网页并和您对话的强大代理

WebLlama是一个基于Meta Llama 3构建的代理，专门为网页导航和对话进行了微调。它旨在构建有效的以人为中心的代理，帮助用户浏览网页，而不是取代用户。该模型在WebLINX基准测试中超越了GPT-4V（零样本）18%，展示了其在网页导航任务中的卓越性能。

网页导航对话代理机器学习

Infra Copilot:利用机器学习自动生成基础设施代码，提高开发效率。

GitHub Copilot for Infrastructure as Code（简称Infra Copilot）是一个利用机器学习技术帮助基础设施专业人员自动生成精确基础设施代码的工具。它通过理解基础设施任务的上下文，允许专业人员使用自然语言表达需求，并接收相应的代码建议。Infra Copilot不仅简化了基础设施即代码（IaC）的开发过程，还确保了跨环境和项目的一致性，加速了新团队成员的上手和学习过程，显著提高了工作效率并节约了时间。

基础设施即代码自动化机器学习

LLaVA++:扩展LLaVA模型，集成Phi-3和LLaMA-3，提升视觉与语言模型的交互能力。

LLaVA++是一个开源项目，旨在通过集成Phi-3和LLaMA-3模型来扩展LLaVA模型的视觉能力。该项目由Mohamed bin Zayed University of AI (MBZUAI)的研究人员开发，通过结合最新的大型语言模型，增强了模型在遵循指令和学术任务导向数据集上的表现。

人工智能自然语言处理机器学习

PhysDreamer:通过视频生成实现基于物理的3D对象交互

PhysDreamer是一个基于物理的方法，它通过利用视频生成模型学习到的对象动力学先验，为静态3D对象赋予交互式动力学。这种方法允许在缺乏真实物体物理属性数据的情况下，模拟出对新颖交互（如外力或代理操作）的真实反应。PhysDreamer通过用户研究评估合成交互的真实性，推动了更吸引人和真实的虚拟体验的发展。

3D交互视频生成物理模拟

AI快站:专注于提供HuggingFace模型免费加速下载服务的平台

AI快站是一个为AI开发者设计的服务平台，提供HuggingFace模型的免费加速下载，解决大模型下载缓慢和断开的问题，支持高达4M/s的下载速度，大幅减少等待时间，提高开发效率。

HuggingFace模型加速下载断点续传

Llama-3 8B Instruct 262k:一款由Gradient AI团队开发的高性能文本生成模型。

Llama-3 8B Instruct 262k是一款由Gradient AI团队开发的文本生成模型，它扩展了LLama-3 8B的上下文长度至超过160K，展示了SOTA（State of the Art）大型语言模型在学习长文本操作时的潜力。该模型通过适当的调整RoPE theta参数，并结合NTK-aware插值和数据驱动的优化技术，实现了在长文本上的高效学习。此外，它还基于EasyContext Blockwise RingAttention库构建，以支持在高性能硬件上的可扩展和高效训练。

文本生成长文本处理对话系统

CoreNet: 是一个用于训练深度神经网络的库。

CoreNet 是一个深度神经网络工具包，使研究人员和工程师能够训练标准和新颖的小型和大型规模模型，用于各种任务，包括基础模型（例如 CLIP 和 LLM）、对象分类、对象检测和语义分割。

深度学习神经网络计算机视觉

Llama-Chinese:构建最好的中文Llama大模型，完全开源可商用。

Llama中文社区是一个专注于Llama模型在中文方面的优化和上层建设的技术社区。社区提供基于大规模中文数据的预训练模型，并对Llama2和Llama3模型进行持续的中文能力迭代升级。社区拥有高级工程师团队支持，丰富的社区活动，以及开放共享的合作环境，旨在推动中文自然语言处理技术的发展。

NLP 开源中文优化

Interactive3D:通过交互式3D生成技术，实现高质量且可控的3D模型创建。

Interactive3D是一个先进的3D生成模型，它通过交互式设计为用户提供了精确的控制能力。该模型采用两阶段级联结构，利用不同的3D表示方法，允许用户在生成过程的任何中间步骤进行修改和引导。它的重要性在于能够实现用户对3D模型生成过程的精细控制，从而创造出满足特定需求的高质量3D模型。

3D生成交互设计模型控制

GraphRAG:结合文本提取、网络分析和大型语言模型提示与总结的端到端系统

GraphRAG (Graphs + Retrieval Augmented Generation) 是一种通过结合文本提取、网络分析以及大型语言模型（LLM）的提示和总结，来丰富理解文本数据集的技术。该技术即将在GitHub上开源，是微软研究项目的一部分，旨在通过先进的算法提升文本数据的处理和分析能力。

人工智能自然语言处理知识图谱

Qwen1.5-110B:Qwen1.5系列首个千亿参数开源模型，多语言支持，高效Transformer解码器架构。

Qwen1.5-110B是Qwen1.5系列中规模最大的模型，拥有1100亿参数，支持多语言，采用高效的Transformer解码器架构，并包含分组查询注意力（GQA），在模型推理时更加高效。它在基础能力评估中与Meta-Llama3-70B相媲美，在Chat评估中表现出色，包括MT-Bench和AlpacaEval 2.0。该模型的发布展示了在模型规模扩展方面的巨大潜力，并且预示着未来通过扩展数据和模型规模，可以获得更大的性能提升。

人工智能机器学习自然语言处理

ID-Aligner:一种用于增强身份保留文本到图像生成的反馈学习框架

ID-Aligner 是一种用于增强身份保留文本到图像生成的反馈学习框架，它通过奖励反馈学习来解决身份特征保持、生成图像的审美吸引力以及与LoRA和Adapter方法的兼容性问题。该方法利用面部检测和识别模型的反馈来提高生成的身份保留，并通过人类标注偏好数据和自动构建的反馈来提供审美调整信号。ID-Aligner 适用于LoRA和Adapter模型，通过广泛的实验验证了其有效性。

文本到图像身份保留反馈学习

Bundle of Joy:为忙碌的准父母提供宝宝女孩和宝宝男孩的名字选择。

Bundle of Joy是一个为准父母设计的应用程序，可以在几秒钟内为他们的新生儿浏览和筛选名字。该应用根据父母的偏好推荐名字，并根据父母的喜好进行学习，为他们提供适合他们口味的新的推荐。父母可以指示宝宝的性别，然后选择以下两个选项之一：名字的首选来源、宗教、主题、首字母和含义。他们开始根据自己的独特偏好获得漂亮的宝宝名字推荐。他们可以随时修改这些偏好，并继续根据自己的口味获得新鲜的推荐。

宝宝名字准父母姓名选择

StudyBoosterAI:解锁个性化学习和考试成功，帮助学生制定个性化学习计划、记忆技巧等，支持IB、IGCSE、ICSE、文凭课程和大学学生。

StudyBoosterAI通过AI技术提供个性化支持，包括定制化学习材料、生动的学习内容、个性化学习计划等，帮助学生更有效地学习和记忆知识。

个性化学习记忆技巧学习计划

SNAPVID:是一款智能视频编辑工具，帮助用户快速剪辑、添加字幕和动画表情，提高视频的吸引力和互动性。

SNAPVID是一款智能视频编辑工具，利用AI技术提供多个热门视频剪辑建议，用户只需点击一次即可创建多个病毒式视频剪辑。同时，用户可以根据需要自定义剪辑长度和风格，并添加自定义的字幕和动画表情。SNAPVID还支持批量导出和品牌定制，使用户能够轻松导出自己喜欢的视频剪辑并保存项目设置，方便在多个项目中复用。通过AI B Roll技术，SNAPVID还可以自动添加相关的库存视频，提升视频的沉浸感。

视频编辑 AI技术字幕

Recruiting Co:革新您的招聘游戏，使用我们的即时验证器来简化招聘。

Blue Saturn是一款招聘辅助工具，通过即时验证器帮助中型和大型组织验证大量申请者。它可以分析数百个申请者的信息，在不到1分钟内提供全面的报告和排名。Blue Saturn的主要优点是快速验证、全面报告和智能招聘。

招聘验证人力资源

Vidu:中国首个长时长、高一致性、高动态性视频大模型，一键生成高清视频内容。国内版的Sora

Vidu是由生数科技联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型。该模型采用原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。其快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。Vidu的问世代表了生数科技在多模态原生大模型领域的持续创新能力和领先性，面向未来，灵活架构将能够兼容更广泛的模态，进一步拓展多模态通用能力的边界。

AI视频生成高清视频多模态

Fusionos.ai:将市场营销活动从构思到上线，一天搞定。使用AI生成营销文案和适应各种渠道的创意，在几秒钟内生成所有尺寸的创意，获取可编辑的Adobe Photoshop创意，包括分层文本、高分辨率产品、背景等。实时协作于一个地方，连接您现有的工具。

Fusion OS是一个营销活动的增强平台，通过使用AI在同一天内生成并发布营销活动，极大地提高了活动的效率。它可以根据客户的要求生成营销文案和创意，为多个渠道生成适应的尺寸，同时还可以生成可编辑的Adobe Photoshop文件，包括分层文本、高分辨率产品、背景等。Fusion OS还提供实时协作功能，让团队成员可以在同一个地方进行协作，并连接现有的工具，集中管理数据和提供AI驱动的增长建议。

Meta首发AI视频模型V-JEPA 可用人类的理解方式看世界

今日大家都在搜的词：

热文

站长商机