首页 > AI头条  > 正文

告别“扁平”AI!TesserAct 给AI装上4D大脑,让机器人真正看懂三维世界!

2025-04-30 17:10 · 来源: AIbase基地

你是否注意到,那些让我们惊叹不已的AI虽然能写诗作画,却对我们生活的三维空间理解有限?当今大多数AI世界模型仍在二维平面中"思考",它们能识别照片中的猫咪,却难以理解物体在空间中的位置、形状与深度。这种"二维诅咒"严重限制了AI,特别是机器人在现实世界中的应用能力。

来自UMass Amherst、HKUST和哈佛的研究团队带来了突破性解决方案——TesserAct,一个真正能够理解四维世界的AI模型。这个名称让人联想到《星际穿越》中的高维空间概念,而它的功能同样具有科幻色彩:赋予AI理解三维空间加时间维度的能力。

image.png

传统2D模型在机器人控制应用中面临诸多痛点。想象一个仅能理解平面图像的机器人尝试从冰箱取出牛奶时的窘境:它无法准确判断距离,不知如何调整抓取姿态,更无法对物体运动做出合理预测。这些问题对于需要与物理世界交互的具身智能而言是致命的。

TesserAct的创新在于它没有试图直接预测复杂的4D动态场景,而是选择了一种更高效的表示方法:预测未来的RGB-DN视频流。这一巧妙组合包含了常规彩色图像(RGB)、深度图(D)和法线图(N)。深度图告诉AI画面中每个点的距离,就像给它戴上3D眼镜;法线图则提供表面朝向信息,使AI能"触摸"物体表面的形状和纹理。这三种信息构成的视频流既包含了物体外观,又含有关键的3D几何信息,还捕捉了时间变化。

获取这类4D数据是一大挑战。研究团队采用"虚实结合"策略:在机器人仿真环境中生成大量带精确深度信息的数据,同时使用先进算法为真实机器人视频添加深度和法线标注,还补充了人类与物体交互的数据。这一创新数据集成为训练TesserAct的基础。

image.png

在模型架构上,团队没有从零开始,而是聪明地利用了预训练的CogVideoX文本到视频生成模型。他们对模型进行了巧妙改造:分别对RGB、深度和法线视频进行编码,设计了专门的"投影仪"处理这三种模态信息,同时扩展了输出端以预测完整的RGB-DN数据。这种方法最大限度地利用了预训练模型的知识,仅需在相对较小的4D数据集上微调。

TesserAct还创新性地开发了优化算法,将生成的"三视图"转化为连贯动态的4D场景。它利用法线图优化深度图,使用光流算法区分动态与静态区域,并引入时空连续性约束确保场景真实感。这套精巧的优化流程将预测出的RGB-DN视频流"缝合"成时空高度一致的4D表示。

image.png

在各项测试中,TesserAct表现出色。它在4D场景生成质量、新视角合成和跨平台泛化能力上均优于现有方法。最关键的是,基于TesserAct训练的机器人在各种操作任务中,成功率远超仅使用2D图像的方法,特别是在需要精确空间理解的任务上优势明显。

TesserAct的出现标志着AI世界模型研究的重要"升维"。它让我们看到了让AI真正理解三维动态世界的可能性。基于这种4D世界模型,未来机器人有望在复杂环境中灵活操作,通过"想象"未来场景做出智能决策,并从仿真训练无缝迁移到现实应用。

虽然研究仍有局限,但TesserAct无疑开启了通往更强大具身AI的大门。下次当你看到机器人笨拙地抓不起东西时,也许可以想:它缺的正是这样一个能理解四维世界的大脑!

论文地址:https://arxiv.org/pdf/2504.20995

  • 相关推荐
  • 普渡机器人发布AI全能清洁机器人PUDU CC1 Pro,商用清洁迈入AI时代

    5月27日,深圳普渡科技发布AI全能清洁机器人PUDU CC1 Pro。该产品通过AI技术实现全流程智能化清洁,具备垃圾识别、力度调节、效果监测等功能,每小时清洁面积达1500-3000㎡。创新性地采用后视AI相机检测二次污染,搭载VSLAM+激光融合定位技术,简化部署流程。产品获得CE-MD认证,适用于商业综合体、医院等大场景。普渡科技作为服务机器人领导品牌,产品已覆盖全球60多个国家�

  • 淘宝跑步进入三维世界

    6月10日,苹果给今年获得苹果设计大奖(Apple Design Award,简称ADA)的应用颁了奖。 要知道,在业内,ADA是被称作应用界“奥斯卡”的。1997年,苹果濒临破产时,乔布斯再次回归苹果,同一年的 WWDC(苹果全球开发者大会) 上,苹果正式推出“人机交互杰出设计奖”,以表彰苹果生态中最出色的第三方软件设计,两年后,这一奖项更名为大众熟悉的苹果设计大奖。 今年尤其特

  • 外媒:亚马逊正在训练人形AI机器人,用来“送快递”!

    机器人不会疲劳、不需要福利、也无需加班费,对企业而言是极具吸引力的低成本替代者……

  • 云迹科技港交所申请上市,加速AI服务机器人多元化布局

    近日,云迹科技创始人、董事长、总裁支涛针对人工智能与智能制造产业,尤其是机器人“智造”的发展等话题进行分享,她说,在国家政策红利、技术突破以及行业趋势的多重驱动下,人工智能相关产业正迎来发展黄金期。

  • 机器人出招就是“佛山无影脚” 机器人格斗花式动作接连使出

    比赛现场气氛紧张而热烈,4台G1机器人分别佩戴红、粉、绿、黑四种颜色的护具,在真人选手的遥控下,施展直拳、勾拳、组合拳、侧踢、膝踢等多种格斗动作,并且灵活运用闪避和反击策略。机器人之间的对抗精彩纷呈,每一次出拳、踢腿都牵动着现场观众的心。 经过激烈的角逐,名为“AI策算师”的机器人凭借更强的稳定性和出色的战术表现脱颖而出,最终夺得冠军。在�

  • AI机器人赛道竞速,英伟达/微美全息GPU+AI全栈布局双轮驱动产业化浪潮!

    英伟达CEO黄仁勋在Computex2025电脑展发表主题演讲,宣布公司转型为AI基础设施提供商。重点展示了四大方向:消费级RTX显卡、B300服务器芯片、Omniverse软件平台及自动驾驶/机器人技术。推出全新GB300 Blackwell Ultra AI平台,提升训练和推理能力。黄仁勋强调机器人技术将引领下一场工业革命,推出Isaac GR00T机器人开发平台和Jetson Thor处理器。摩根士丹利预测人形机器人市场规模将达60万亿美元,中国到2050年市场规模或达6万亿元。微美全息等企业正加速布局该领域,通过AI视觉、自然语言处理等技术提升机器人环境感知与决策能力。黄仁勋指出智能体(Agent)、模型(Model)和机器人(Robot)将成为未来十年技术话语权争夺的关键。

  • 第10万台机器人下线,普渡机器人领航全球服务机器人规模化量产

    普渡科技在江苏盐城建湖超级工厂迎来第10万台机器人下线,标志着其产品累计出货量达重要里程碑。该工厂占地4万平方米,年产能10万台,采用物联网技术实现全生命周期智能化管理。公司业务覆盖60多个国家地区,海外营收占比超80%,其中商用服务机器人"贝拉"成为出海代表产品。普渡已构建配送、清洁、工业配送三大产品线,并率先完成专用、类人形、人形机器人全形态布局。2023年公司以23%市占率位居全球第一,预计2035年全球服务机器人市场规模将达1950亿美元。

  • 腾讯云TencentOS Server AI,助力荣耀打造高性能AI底座

    随着生成式AI技术爆发式增长,AI大模型开始渗透至手机领域。荣耀基于腾讯云TencentOS Server AI的TACO-LLM加速模块部署DeepSeek-R1等开源大模型,在内部场景应用中实现稳定性、可靠性和推理性能的大幅提升。测试显示,使用TACO-LLM后,首Token延迟最高降低6.25倍,吞吐提升2倍,端到端延迟降低100%。TACO-LLM通过投机采样技术实现大模型"并行"解码,从根本上解决计算密度问题,大幅提升解码效率。荣耀表示该方案打造了高性能AI底座,提供高吞吐低延迟的优化方案,能无缝整合现有大模型部署方案。腾讯云TACO-LLM针对企业级AI模型私有化部署挑战,专门优化了大语言模型内核运行效率。

  • 手速惊人!10分钟泡三道茶 南博会出现泡茶机器人

    今日,在云南昆明南博会上,一个泡茶机器人吸引众多参会者围观。 活动现场,只见机器人行云流水,毫无卡顿,精准还原传统泡茶步骤。 熟练完成装茶、洗茶、冲泡、出汤、分茶、清杯等一系列动作,10分钟便能连泡三道茶。 不少围观者表示:这是传统茶文化与现代科技的完美融合。” 同时,机器人泡好的茶也引得现场观众纷纷品尝,不少人表示很好喝。 据了解,该�

  • 告别保鲜焦虑!三星AI神 冰箱让食材自带时光保鲜罩

    三星推出AI神冰箱5系与9系,通过AI技术实现智能食材管理。配备9英寸AI智控大屏,可记录食材保质期并提醒;支持37种食材自动识别分类;创新混合制冷技术保持稳定温湿度,减少营养流失。683mm纤薄机身可平嵌安装,631L大容量满足家庭需求。产品重塑食材保鲜标准,让冰箱成为懂食材、懂用户的"鲜储管家"。

今日大家都在搜的词: