首页 > 业界 > 关键词  > V-JEPA最新资讯  > 正文

Meta首发AI视频模型V-JEPA 可用人类的理解方式看世界

2024-02-18 14:32 · 稿源:站长之家

**划重点:**

🌐 Sora被LeCun质疑不能真正理解物理世界,引发论战。

🎥 Meta推出V-JEPA,非生成式模型,通过视频预测模型实现高效的世界理解。

🚀 V-JEPA在冻结评估上表现出色,可用于多个任务,标注使用效率优于其他模型。

站长之家(ChinaZ.com)2月18日 消息:近日,深度学习领域泰斗LeCun在WGS峰会上怒斥Sora模型不能真正理解物理世界,引起广泛关注。他指出,仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界,与基于世界模型的因果预测有本质区别。

image.png

LeCun进一步解释,视频生成系统成功的标准是创造一个合理的样本,而真实视频的合理发展路径相对较少,尤其在特定动作条件下难度更大。他提出了联合嵌入预测架构(JEPA)的核心思想,强调生成后续内容的抽象表示,去除与行动无关的细节。

与此同时,LeCun展示了Meta公司发布的V-JEPA,一个非生成式模型,以人类的理解方式看世界。通过在抽象空间中预测视频中被遮挡或缺失的部分,V-JEPA在冻结评估上表现出色,可用于多个任务,标注使用效率优于其他模型。

image.png

V-JEPA采用自监督学习方式,仅依靠未标记的数据进行预训练,然后通过标记数据微调模型。研究人员在视频中遮挡大部分内容,要求预测器补全缺失的内容,以一种抽象的描述形式在表示空间中填充内容。

值得一提的是,V-JEPA是首个在冻结评估上表现出色的视频模型,为模型学习新技能提供了高效快速的方法。研究还表明,V-JEPA在标注使用效率上优于其他模型,尤其在标注样本减少时表现更为出色。

虽然V-JEPA主要集中于视频的「视觉元素」,Meta公司表示下一步研究方向将包括同时处理视频中的「视觉和音频信息」的多模态方法。LeCun认为,V-JEPA是迈向对世界更深刻理解的关键一步,使机器能够进行更广泛的推理和规划。

V-JEPA的发布不仅是对Sora的回击,更展示了Meta公司在AI领域的先进技术,为实现具身AI技术和未来增强现实(AR)眼镜提供了有力支持。

V-JEPA模型的特色亮点功能包括:

  1. 视频理解能力: V-JEPA是一个非生成模型,通过在抽象表示空间中预测视频中缺失或遮挡的部分来学习。它在检测和理解物体之间高度详细的互动方面表现出色。

  2. 自监督学习方法: V-JEPA完全使用未标记的数据进行预训练,仅在预训练后才使用标签来适应特定任务。这种方法在减少所需标记样本数量和学习未标记数据方面显示出更高的效率。

  3. 遮蔽方法: V-JEPA采用一种特殊的遮蔽方法,通过在空间和时间上遮蔽视频的部分来迫使模型学习和发展对场景的理解。这有助于使模型更好地理解视频中的复杂互动。

  4. 抽象表示空间预测: V-JEPA通过在抽象表示空间中进行预测,使模型能够专注于视频包含的更高级别的概念信息,而无需关注像素级的细节。

  5. 低次冻结评估: V-JEPA是第一个在“冻结评估”中表现出色的视频模型,通过对编码器和预测器进行自监督预训练,然后仅在需要适应新技能时训练一个小型轻量级的专用层或网络。

  6. 多任务应用: V-JEPA的自监督方法使其能够适用于各种下游图像和视频任务,如图像分类、动作分类和时空动作检测,而无需调整模型参数。

  7. 未来研究方向: 该模型的未来方向包括采用更多模态的方法,如结合音频和视觉。此外,团队计划探索如何将V-JEPA的理解和规划能力应用于更长时间范围的视频任务。

项目介绍网址:https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

举报

  • 相关推荐
  • 大家在看
  • Businessflow Recruit:招聘革命,AI 助力招聘流程优化

    通过 AI 助手,提高招聘效率,降低成本,为公司找到最佳适应的候选人。拥有简历分析、候选人排名、自动面试等功能。定价根据企业规模定制。

  • Wookeys AI:一站式AI助手,为您提供生成文本、图像、代码、视频、音频等的解决方案

    Ultimate AI Assistant是一款综合AI助手,可帮助您简化任务,提高工作效率。它提供了生成文本、图像、代码、视频、音频等多种功能,具有高度定制化的AI解决方案。无论您是需要生成创意文案、设计图像、编写代码、制作视频还是创作音乐,Ultimate AI Assistant都能满足您的需求。该产品定价根据功能和使用量而定,详情请访问官方网站。

  • Sakura FM:与AI角色聊天

    Sakura AI是一个能够与AI角色聊天的平台。通过与AI角色的对话,用户可以探索、发现和创造新的AI体验。开始聊天,释放你的想象力。

  • lensa.app:影像增强AI工具

    Lensakey是一款影像增强AI工具,可一键进行照片修饰、去除干扰、应用时尚滤镜和效果,并创建独特的AI头像。它可以提升您的社交媒体影响力,轻松提升照片质量。

  • StockTune:免费音乐,无限可能

    StockTune 是一个免费音乐库,提供商用和个人使用的免费音乐下载,无需署名。库中拥有丰富多样的高品质音乐曲目,能够满足不同需求。价格:免费。

  • heardeer:10分钟内收集1000+用户访谈反馈

    heardeer可以在10分钟内收集1000+用户访谈反馈,让AI处理繁琐的用户访谈,您可以专注于更重要的任务。heardeer提供全球用户访谈,无需雇佣翻译人员,让用户以自己的母语参与访谈。同时,heardeer提供详细的转录和深度分析,为您节省时间。快来试试heardeer,开始您的用户访谈吧!

  • OneAccord:实时AI翻译为教堂

    OneAccord是一个实时AI翻译平台,为教堂提供语言翻译和字幕服务。它通过AI模型和人工校对,帮助教堂克服语言障碍,使教堂服务对听障人士也能无障碍参与。平台支持多种语言翻译和字幕功能,并提供定制品牌和在线访问。用户可以根据自己的需求选择月度订阅或一次性使用,并可以根据使用时间、语言和听众数量等参数来估算费用。

  • Kursaha:AI驱动的客户获取和参与解决方案

    Kursaha是一种AI驱动的客户获取和参与解决方案,通过定向广告活动、营销策略和参与客户来推动业务增长。核心功能包括实时分析、集成、自动生成OTP和验证、AI驱动的聊天自动化、受众预测和行为队列等。Kursaha是营销数据和产品团队的完整解决方案,帮助他们增强客户参与和获取策略。

  • AI Singing:AI音乐生成器

    AI音乐生成器是一个能够免费生成音乐的AI音乐生成器。它可以自动生成歌曲和歌唱。

  • Blahget:您的智能AI语音驱动型预算助手

    Blahget是一款先进的AI预算助手,可简化财务管理。它利用GPT-4驱动的语音识别技术,实现无缝跟踪支出和收入。从今天开始您的智能预算之旅吧。它可以通过语音快速创建、编辑和删除记录,支持搜索、筛选和排序等操作,并可执行数学计算。迄今已记录超过10万条数据条目。

  • Tools4AI:100% Java实现的LLM代理和大型行动模型

    Tools4AI是100%用Java实现的大型行动模型(LAM),可作为企业Java应用程序的LLM代理。该项目演示了如何将AI与企业工具或外部工具集成,将自然语言提示转换为可执行行为。这些提示可以被称为"行动提示"或"可执行提示"。通过利用AI能力,它简化了用户与复杂系统的交互,提高了生产力和创新能力。

  • SlideAI:AI制作演示文稿

    Slides AI是一款AI制作演示文稿的工具。它利用先进的AI算法分析您的主题,生成相关内容,并创建专业的PowerPoint幻灯片。Slides AI可以为您节省时间和精力,让您轻松创建专业而引人注目的演示文稿。

  • Ping Parrot:AI聊天机器人,帮助您处理客户支持

    Ping Parrot是一个AI聊天机器人平台,可以帮助您快速构建自定义的聊天机器人,并将其嵌入到您的网站上,帮助您处理客户支持。无需编码即可使用。聊天机器人可以根据您的数据进行训练,学习并提供最佳答案。您可以定制聊天机器人的外观以匹配您的品牌,并在80种语言中提供帮助。

  • Inpaint-web:免费的去除水印和物体的工具

    Inpaint-web 是一款永久免费的在线工具,只需一点击即可去除照片中的不想要对象,同时提供修复瑕疵功能。其独特的照片去除和修复功能让用户轻松实现照片编辑需求。用户无需下载安装任何软件,直接在网页上使用。Inpaint-web 定位于为用户提供便捷、高效的照片编辑解决方案。

  • MA-LMM:面向长期视频理解的大规模多模态模型

    MA-LMM是一种基于大语言模型的大规模多模态模型,主要针对长期视频理解进行设计。它采用在线处理视频的方式,并使用记忆库存储过去的视频信息,从而可以在不超过语言模型上下文长度限制或GPU内存限制的情况下,参考历史视频内容进行长期分析。MA-LMM可以无缝集成到当前的多模态语言模型中,并在长视频理解、视频问答和视频字幕等任务上取得了领先的性能。

  • eezyCollab:AI驱动的高效、低成本的影响力营销工具

    eezyCollab是一款AI驱动的影响力营销工具,能快速匹配合适的KOL,进行批量化电子邮件营销,帮助中小企业以低廉的成本进行影响力营销。该产品无需营销专业知识即可上手使用,简单易用,大幅提高了影响力营销的效率和可及性。

  • LangAI:使用 AI 聊天学习多种语言

    通过与 AI 聊天,自然提高语言能力。支持 20 多种语言,提供实时纠错和解释,免费使用。

  • V7 Go:基于生成式 AI 的文档处理平台

    V7 Go 是一款基于生成式 AI 的文档处理平台,可以理性处理文档、图像、视频等多模态数据,并提供高精度的自动化工作流。它可以识别打印和手写文字,并支持连接外部 AI 模型。V7 Go 提供多种价格选项,包括免费试用和付费版本。

  • Infini-attention:扩展Transformer模型处理无限长输入

    Google开发的“Infini-attention”技术旨在扩展基于Transformer的大语言模型以处理无限长的输入,通过压缩记忆机制实现无限长输入处理,并在多个长序列任务上取得优异表现。技术方法包括压缩记忆机制、局部与长期注意力的结合和流式处理能力等。实验结果显示在长上下文语言建模、密钥上下文块检索和书籍摘要任务上的性能优势。

  • HyperDoc:用 AI 生成摘要卡片,提高销售效率

    HyperDoc 是一款 AI 驱动的信息摘要工具。它可以自动将文档内容总结成简洁的卡片,帮助销售人员准备更有洞见的销售方案,提高销售生产力。用户可以上传文档,HyperDoc 会自动生成相关要点卡片,并提供洞察分析以了解客户需求。该产品提供终身免费使用,无需月费。

今日大家都在搜的词: