首页 > 业界 > 关键词  > V-JEPA最新资讯  > 正文

Meta首发AI视频模型V-JEPA 可用人类的理解方式看世界

2024-02-18 14:32 · 稿源:站长之家

**划重点:**

🌐 Sora被LeCun质疑不能真正理解物理世界,引发论战。

🎥 Meta推出V-JEPA,非生成式模型,通过视频预测模型实现高效的世界理解。

🚀 V-JEPA在冻结评估上表现出色,可用于多个任务,标注使用效率优于其他模型。

站长之家(ChinaZ.com)2月18日 消息:近日,深度学习领域泰斗LeCun在WGS峰会上怒斥Sora模型不能真正理解物理世界,引起广泛关注。他指出,仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界,与基于世界模型的因果预测有本质区别。

image.png

LeCun进一步解释,视频生成系统成功的标准是创造一个合理的样本,而真实视频的合理发展路径相对较少,尤其在特定动作条件下难度更大。他提出了联合嵌入预测架构(JEPA)的核心思想,强调生成后续内容的抽象表示,去除与行动无关的细节。

与此同时,LeCun展示了Meta公司发布的V-JEPA,一个非生成式模型,以人类的理解方式看世界。通过在抽象空间中预测视频中被遮挡或缺失的部分,V-JEPA在冻结评估上表现出色,可用于多个任务,标注使用效率优于其他模型。

image.png

V-JEPA采用自监督学习方式,仅依靠未标记的数据进行预训练,然后通过标记数据微调模型。研究人员在视频中遮挡大部分内容,要求预测器补全缺失的内容,以一种抽象的描述形式在表示空间中填充内容。

值得一提的是,V-JEPA是首个在冻结评估上表现出色的视频模型,为模型学习新技能提供了高效快速的方法。研究还表明,V-JEPA在标注使用效率上优于其他模型,尤其在标注样本减少时表现更为出色。

虽然V-JEPA主要集中于视频的「视觉元素」,Meta公司表示下一步研究方向将包括同时处理视频中的「视觉和音频信息」的多模态方法。LeCun认为,V-JEPA是迈向对世界更深刻理解的关键一步,使机器能够进行更广泛的推理和规划。

V-JEPA的发布不仅是对Sora的回击,更展示了Meta公司在AI领域的先进技术,为实现具身AI技术和未来增强现实(AR)眼镜提供了有力支持。

V-JEPA模型的特色亮点功能包括:

  1. 视频理解能力: V-JEPA是一个非生成模型,通过在抽象表示空间中预测视频中缺失或遮挡的部分来学习。它在检测和理解物体之间高度详细的互动方面表现出色。

  2. 自监督学习方法: V-JEPA完全使用未标记的数据进行预训练,仅在预训练后才使用标签来适应特定任务。这种方法在减少所需标记样本数量和学习未标记数据方面显示出更高的效率。

  3. 遮蔽方法: V-JEPA采用一种特殊的遮蔽方法,通过在空间和时间上遮蔽视频的部分来迫使模型学习和发展对场景的理解。这有助于使模型更好地理解视频中的复杂互动。

  4. 抽象表示空间预测: V-JEPA通过在抽象表示空间中进行预测,使模型能够专注于视频包含的更高级别的概念信息,而无需关注像素级的细节。

  5. 低次冻结评估: V-JEPA是第一个在“冻结评估”中表现出色的视频模型,通过对编码器和预测器进行自监督预训练,然后仅在需要适应新技能时训练一个小型轻量级的专用层或网络。

  6. 多任务应用: V-JEPA的自监督方法使其能够适用于各种下游图像和视频任务,如图像分类、动作分类和时空动作检测,而无需调整模型参数。

  7. 未来研究方向: 该模型的未来方向包括采用更多模态的方法,如结合音频和视觉。此外,团队计划探索如何将V-JEPA的理解和规划能力应用于更长时间范围的视频任务。

项目介绍网址:https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

举报

  • 相关推荐
  • 3299元起 华为MatePad mini悦读版开售 能打电话的小平板

    华为MatePad Mini悦读版今日开售,提供常规屏和柔光屏两个版本,售价3299元起,仅限华为体验店等线下渠道销售。相比标准版,该版本不支持北斗卫星功能,芯片从麒麟9010降至9010B,核心数减少,USB接口从3.0降为2.0,但其他参数如屏幕尺寸、电池、摄像头等保持一致。亮点包括8.8英寸柔性OLED全面屏、1800nits峰值亮度,柔光屏版售价3799元,采用创新光学膜材降低闪烁干扰,并通过德国莱茵与SGS护眼认证。此外,该平板支持通话与蜂窝网络,可插卡使用,配备听筒及智能来电识别功能,前置3200万像素、后置5000万像素主摄,内置6400mAh电池并支持66W快充。

  • 小平板元年,华为MatePad Mini创出一片蓝海

    2012年,天才乔布斯去世一年后,接任苹果CEO的库克捧出了两款“很不乔布斯”的产品——大屏手机iPhone6和7英寸的iPad mini。 这两款差异化的产品形态,都是库克希望弥补的市场空白。比如,虽然乔布斯认为10英寸就是平板电脑尺寸的下限,更小的屏幕会让用户难以操控。但库克却觉得,小尺寸平板不仅在硬件配置上超越手机,它还具备易于携带的特点,将成为移动办公的利器�

  • 考试数字化 “破题者” 易宝支付YEEPAY:多方案优化体验,获行业专业认可

    文章探讨了考试数字化的重要性,指出考生常因系统、网络、支付等问题焦虑。考试管理涉及多部门协作,报名费清算复杂。数字化推动考试成为数字中国建设的试金石,体现公共服务水平。AI赋能教育考试,生成海量数据但多被闲置。易宝支付等机构助力考试数字化转型,提升效率与公平。未来考试将减少对传统题库依赖,实现自动组卷与智能评分。考试数字化面临地域差异挑战,需打通“云-网-端-安”全链路。易宝支付定制化系统保障安全,服务超30省份,优化考生体验并提升政府效能。

  • 目标安卓最强平板!荣耀MagicPad3 Pro全面对标iPad Pro、小米平板Ultra

    荣耀MagicPad3+Pro平板即将发布,将搭载第五代骁龙8至尊版芯片,配备13.3英寸超高刷大屏,首发MagicOS 10系统,支持PC级交互能力。对标iPad Pro和小米平板Ultra,目标成为安卓阵营最强平板。预计售价约5000元,因旗舰芯片成本较高。作为参考,荣耀MagicPad 3售价2999元起。

  • 华为MatePad mini今日首销:3299元起

    今日上午10:08,华为年度旗舰平板MatePad Mini正式开启首销,起售价定为3299元。这款被誉为“大手机 小平板”的8.8英寸设备,凭借其独特定位与全能配置,成为今年平板市场中最受瞩目的新品之一。 MatePad Mini的最大亮点在于其突破性支持5G插卡功能,并内置听筒可实现通话,官方在发布会上直言其“手机平板二合一”的跨界属性。整机厚度仅5.1毫米,重量仅255克,轻薄设计便于

  • ​OPPO Pad5官宣10月16日发布 首发ColorOS 16

    OPPO Pad5将于10月16日发布,搭载全新ColorOS 16系统,主打流畅体验。系统升级三大核心技术引擎,实现无缝动画效果,并首次将原生级流畅能力开放给第三方应用。硬件方面配备12.1英寸3K高刷屏和联发科天玑9400处理器,支持67W快充,兼顾高性能与长续航。针对海外用户优化虚拟键盘操作,提升切换效率。产品定位“丝滑板王”,旨在引领安卓平板体验新高度。

  • AI日报:京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布;Kimi 推出全新 Agent 模式

    本期AI日报聚焦多领域技术突破:京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”,推动物流行业迈向自主执行;DeepSeek推出V3.1终结版,修复漏洞并为V4架构铺路;Kimi上线Agent模式“OK Computer”,支持智能网站开发等复杂任务;ChatGPT新增个性化资讯功能,定制用户专属新闻;Exa Code发布代码索引工具,助力AI代理精准生成代码;Meta推出AI视频创作平台Vibes,简化短视频制作;蚂蚁数科发布隐私保护AI框架Gibbon,推理速度提升超百倍;OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平,覆盖九大行业44种职业。

  • 强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

    2025年9月29日,深度求索公司发布新一代模型架构DeepSeek-V3.2,引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本,在V3.1-Terminus基础上引入稀疏注意力机制,优化长文本训练和推理效率。目前官方应用端已同步更新,API大幅降价。此次模型体积达671GB,下载需8-10小时。业内专家指出,此次快速适配表明双方早有深度技术协�

  • 领星ERPAI生图功能:一分钟打造跨境电商专业视觉素材

    在竞争白热化的跨境电商领域,高质量产品图片是吸引买家点击、促成转化的关键。然而,传统拍摄流程成本高、周期长,严重影响新品上架和营销效率。领星ERP推出的AI生图功能,通过“文生图”和“图生图”两种模式,让卖家仅需输入简单描述或上传草图,即可快速生成专业级商业图片,大幅降低门槛。该功能支持自由编辑提示词、批量出图和预设模板,并能与ERP系统深度集成,实现图片自动关联SKU、一键引用至商品Listing,形成从素材生成到应用管理的闭环。这不仅解决了视觉素材制作痛点,还提升了运营效率,助力跨境卖家降本增效。

  • 千亿AI玩具市场:当IP被AI“唤醒”,玩具厂商如何开辟新赛道?

    过去两年AI技术热度飙升,从ChatGPT爆发到谷歌、Meta频发新一代大模型,AI已切实改变生活方式。传统玩具行业正孕育智能化尝试,迪士尼与乐森机器人合作推出Mini Robot智能潮玩,通过“通用底座+可替换IP公仔”平台化设计,结合机器人技术与情感交互,打破单一产品逻辑。该产品支持动作编程、语音定制及UGC内容共享,推动玩具从“产品消费”转向“情绪消费”,成为连接虚拟与现实的新型生命体。

今日大家都在搜的词: