LeCun世界模型出2代了,62小时搞定机器人训练,开启物理推理新时代
物理学正在走向人工智能——
Meta开源发布V-JEPA 2 世界模型:一个能像人类一样理解物理世界的AI模型。

图灵奖得主、Meta首席AI科学家Yann LeCun 亲自出镜宣传,并称:
我们相信世界模型将为机器人技术带来一个新时代,使现实世界中的AI智能体能够在不需要大量机器人训练数据的情况下帮助完成家务和体力任务。

那什么是世界模型呢?
简单说,就是能够对真实物理世界做出反应的AI模型。
它应该具备以下几种能力:
理解:世界模型应该能够理解世界的观察,包括识别视频中物体、动作和运动等事物。
预测:一个世界模型应该能够预测世界将如何演变,以及如果智能体采取行动,世界将如何变化。
规划:基于预测能力,世界模型应能用于规划实现给定目标的行动序列。
V-JEPA 2(Meta Video Joint Embedding Predictive Architecture 2 )是首个基于视频训练 的世界模型(视频是关于世界信息丰富且易于获取的来源)。
它提升了动作预测和物理世界建模能力,能够用于在新环境中进行零样本规划 和机器人控制 。

V-JEPA 2一发布就引起了一片好评,甚至有网友表示:这是机器人领域的革命性突破!


62小时训练即可生成规划控制模型
V-JEPA 2采用自监督学习框架,利用超过100万小时的互联网视频和图像数据进行预训练,不依赖语言监督,证明纯视觉自监督学习可以达到顶尖表现。

上图清晰地展示了如何从大规模视频数据预训练到多样化下游任务的全过程:
输入数据:利用100万小时互联网视频和100万图片进行预训练。
训练过程:使用视觉掩码去噪目标进行视频预训练。
下游应用分为三类:
理解与预测:行为分类、物体识别、行为预测;
语言对齐:通过与LLM对齐实现视频问答能力;
规划:通过后训练行动条件模型(V-JEPA 2-AC)实现机器人操作。
V-JEPA 2采用联合嵌入预测架构(JEPA),主要包含两个组件:编码器 和预测器 。
编码器接收原始视频并输出能够捕捉有关观察世界状态的语义信息的嵌入。
预测器接收视频嵌入以及关于要预测的额外上下文,并输出预测的嵌入。


研究团队用视频进行自监督学习来训练V-JEPA 2,这就能够在无需额外人工标注的情况下进行视频训练。
V-JEPA 2的训练涉及两个阶段:先是无动作预训练 (下图左侧),然后是额外的动作条件训练 (下图右侧)。

经过训练后,V-JEPA 2在运动理解方面取得了优异性能(在Something-Something v2上达到77.3的 top-1准确率),并在人类动作预测方面达到了当前最佳水平(在Epic-Kitchens-100上达到39.7的recall-at-5),超越了以往的任务特定模型。


此外,在将V-JEPA 2与大型语言模型对齐后,团队在8B参数规模下多个视频问答任务中展示了当前最佳性能(例如,在PerceptionTest上达到84.0,在TempCompass上达到76.9)。

对于短期任务 ,例如拾取或放置物体,团队以图像的形式指定目标。
使用V-JEPA 2编码器获取当前状态和目标状态的嵌入。
从其观察到的当前状态开始,机器人通过使用预测器来想象采取一系列候选动作的后果,并根据它们接近目标的速度对候选动作进行评分。
在每个时间步,机器人通过模型预测控制重新规划并执行朝向该目标的最高评分的下一个动作。
对于更长期的任务 ,例如拾取物体并将其放置在正确的位置,指定一系列机器人试图按顺序实现的视觉子目标,类似于人类观察到的视觉模仿学习。
通过这些视觉子目标,V-JEPA 2在新的和未见过的环境中拾取并放置新物体时,成功率达到65%–80%。

物理理解新基准
Meta还发布了三个新的基准测试,用于评估现有模型从视频中理解和推理物理世界的能力 。
虽然人类在所有三个基准测试中表现良好(准确率85%–95%),但人类表现与包括V-JEPA 2在内的顶级模型之间存在明显差距,这表明模型需要改进的重要方向。
IntPhys 2 是专门设计用来衡量模型区分物理上可能和不可能场景的能力,并在早期的IntPhys基准测试基础上进行构建和扩展。
团队通过一个游戏引擎生成视频对,其中两个视频在某个点之前完全相同,然后其中一个视频发生物理破坏事件。
模型必须识别出哪个视频发生了物理破坏事件。
虽然人类在这一任务上在多种场景和条件下几乎达到完美准确率,但当前的视频模型处于或接近随机水平。

Minimal Video Pairs (MVPBench) 通过多项选择题测量视频语言模型的物理理解能力。
旨在减轻视频语言模型中常见的捷径解决方案,例如依赖表面视觉或文本线索以及偏见。
MVPBench中的每个示例都有一个最小变化对:一个视觉上相似的视频,以及相同的问题但答案相反。
为了获得一个示例的分数,模型必须正确回答其最小变化对。

CausalVQA 测量视频语言模型回答与物理因果关系相关问题的能力。
该基准旨在专注于物理世界视频中的因果关系理解,包括反事实(如果……会发生什么)、预期(接下来可能发生什么)和计划(为了实现目标下一步应该采取什么行动)相关的问题。
虽然大型多模态模型在回答视频中“发生了什么”的问题方面能力越来越强,但在回答“可能发生了什么”和“接下来可能发生什么”的问题时仍然存在困难。
这表明在给定行动和事件空间的情况下,预测物理世界可能如何演变方面,与人类表现存在巨大差距。

One More Thing
Meta还透露了公司在通往高级机器智能之路上的下一步计划。
目前,V-JEPA 2只能在单一时间尺度上学习和进行预测。
然而,许多任务需要跨多个时间尺度的规划。
所以一个重要的方向是发展专注于训练能够在多个时间和空间尺度上学习、推理和规划的分层次 JEPA模型。
另一个重要的方向是多模态 JEPA模型,这些模型能够使用多种感官(包括视觉、音频和触觉)进行预测。
项目地址:GitHub:https://github.com/facebookresearch/vjepa2Hugging Face:https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
参考链接:
[1]https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
[2]https://x.com/AIatMeta/status/1932808881627148450
[3]https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/
本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。
Meta推出名为V-JEPA 2的“世界模型”,助力机器人理解物理世界
IT之家 6 月 12 日消息,Meta 公司周三发布了其最新的人工智能模型 V-JEPA 2,这是一种“世界模型”,旨在帮助人工智能智能体理解周围的世界。
据IT之家了解,V-JEPA 2 是 Meta 去年发布的 V-JEPA 模型的扩展版本,其训练数据包括超过 100 万小时的视频素材。这些数据旨在帮助机器人或其他 AI 智能体在物理世界中运行,理解并预测诸如重力等概念将如何影响事件的后续发展。
这种能力类似于儿童和动物在大脑发育过程中所形成的常识性联系。例如,当人们与狗玩接球游戏时,狗能够理解球在地上弹跳后会反弹向上,以及它应该朝着球可能落地的位置奔跑,而不是球当前所在的位置。
Meta 举例称,在某些场景中,机器人可能会面临这样的情况,例如,手持盘子和锅铲,朝着放有煮好鸡蛋的炉灶走去。AI 可以预测,接下来最有可能的动作是用锅铲将鸡蛋移到盘子里。
据 Meta 称,V-JEPA 2 的运行速度比 Nvidia 的 Cosmos 模型快 30 倍,后者也致力于提升与物理世界相关的智能水平。不过,Meta 和 Nvidia 可能使用不同的基准来评估各自模型的性能。
Meta 首席人工智能科学家 Yann LeCun 在视频中表示:“我们相信世界模型将开启机器人技术的新纪元,使现实世界中的 AI 智能体能够在不需要海量机器人训练数据的情况下,有效协助人类完成日常家务和体力劳动。”
相关问答
2019年影响世界十大机器人技术?
01、灵巧机器人意义:机器正在通过自我学习学会应对这个现实世界。如果机器人能学会应对混乱的现实世界,那么它们就可以胜任更多的任务。主要研究者:OpenAI(...
世界智能机器人技术排名?
人工智能的加速发展也使机器人迎来了新的核心智能,那你知道全球机器人技术最牛的都在哪呢?TOP5:SpotMiniSpotMini是由美国波士顿动力创造的四脚机器人,可以...
世界上机器人技术最发达的国家?
日本是全球公认的机器人制造强国。在全球十大机器人公司中,日本的机器人竟然占据了5位:比如发那科(FANUC)、那智不二越、川崎机器人、爱普生机器人、安川(Yask...
世界上最先进的机器人?
ASIMO:20世纪80年代,本田从它的通用汽车产品系列转移到了人工智能系列,最终发明了一个代表先进性的人形机器人ASIMO,它在2000年首次亮相,它能靠两条腿走路,...
《机器人总动员》里的捡垃圾机器人瓦力,以现有的科技技术能...
我想如果完全做到和电影里面的机器人一样,目前的科技还不具备。不过智能机器人一直都在研究和演进,捡垃圾、端盘子、简单交流等,这些功能现在很多机器人都可以...
机器人种类和用途
[最佳回答]机器人技术作为20世纪人类最伟大的发明之一,从60年代初问世以来,经历四十多年的发展已取得长足的进步。在制造业中,工业机器人甚至已成为不可少的...
机器人三大产业?
1,发那科(FANUC)FANUC公司创建于1956年的日本,中文名称发那科(也有译成法兰克),成立于1956年。是世界上最大的专业数控系统生产厂家,占据了全球70%的市...FA...
结构设计工程师虚拟机器人来了,但以目前的人工智能技术真的可以做到吗?
“它是世界第一个结构设计工程师虚拟机器人,通过AI技术、系统优化方法与结构设计相结合,快速实现精细、经济和安全的建筑结构设计。”“以设计条件及相关法规...
中国机器人的发展历程?
我国工业机器人起步于70年代初期,经过20多年的发展,大致经历了3个阶段:70年代的萌芽期70年代是世界科技发展的一个里程碑:人类登上了月球,实现了金星、火...我...
未来的纳米机器人还可以做什么事情。除了医学或保鲜之外?
纳米机器人可以与军事领域和医学领域相结合,发挥作用。1、军事领域军用纳米机器人,俗称为“蚂蚁士兵”,是一种比蚂蚁还要小的靠太阳能电波驱动的具有惊人破...