首页 > 业界 > 关键词  > 机器人最新资讯  > 正文

机器人又掌握新技能:10小时学会煮咖啡

2024-01-08 17:14 · 稿源:站长之家

要点:

  • 一款煮咖啡机器人通过观看人类演示视频仅需10小时学会煮咖啡,并具备自主纠错功能。

  • 这款机器人来自美国公司 Figure,专攻通用人形机器人,创始人 Brett Adcock 是一位成功的企业家。

  • Figure 公司在2022年成立,先后获得了近8000万美元的融资,发布了首款人形机器人 Figure01。

站长之家(ChinaZ.com)1月8日 消息:近日,一款煮咖啡机器人引起了广泛关注。这款机器人通过观看人类演示视频,仅需10小时的训练就能学会煮咖啡,并具备自主纠错功能。该机器人可以自主打开咖啡机盖,放入咖啡包,按下开始按钮,一气呵成地完成整个煮咖啡过程。

image.png

此外,如果咖啡包没有放正,机器人也能自行调整,完全自主完成任务。这款机器人来自美国公司 Figure,该公司成立于2022年,专攻通用人形机器人。创始人 Brett Adcock 是一位成功的企业家,他创办的公司先后获得了近8000万美元的融资,并在去年发布了首款人形机器人 Figure01。

Figure 公司的机器人采用了端到端神经网络的技术,通过接收人类煮咖啡的视频来输出机器人的动作轨迹,从而实现机器人的模仿学习和自主操作。Figure01学会煮咖啡只需要输入相应的视频,并经过10小时的训练即可。虽然这款机器人的训练速度令人印象深刻,但是一些网友对其功能还有一些期待。他们希望机器人能够拿起杯子、识别添加的配料,并将咖啡端到人面前。苹果公司联合创始人 Steve Wozniak 曾提出了一个评估机器人自主能力的咖啡测试,这个测试考验机器人在未知环境中的导航、识别物体、操作工具和材料以及遵循人类命令等能力。

Figure 公司在短短一年多的时间里获得了巨额融资,这表明市场对通用人形机器人的需求非常旺盛。Figure 公司的机器人技术也引起了业界的关注,他们的研究成果在模仿学习领域取得了重要突破。模仿学习是让机器人通过观察和模仿人类行为来学习和完成任务的方法,被广泛应用于各种领域。随着技术的不断发展,越来越多的机器人能够通过模仿学习来学会各种任务,未来可能会出现能够完全自主完成复杂任务的机器人。

虽然 Figure01的表现令人印象深刻,但是它与完全实现咖啡机器人的目标还有一段距离。苹果公司联合创始人 Steve Wozniak 提出的咖啡测试要求机器人在未知环境中完成一系列任务,这需要机器人具备更高级的导航、识别和操作能力。然而,对于机器人技术的快速发展和创新,人们仍然抱有希望。根据一项投票结果显示,89% 的人相信在2040年之前会有具备完全自主能力的咖啡机器人出现。未来,随着技术的不断进步,我们可能会看到更多功能强大的机器人问世,为我们的生活带来更多便利。

举报

  • 相关推荐
  • 大家在看
  • 扫地机器人哪个牌子好?扫地机器人老玩家的新机评测

    最近我又给父母家里新买了一台扫地机器人,原因是之前的机型因为使用成本过高一直被父母闲置,无法发挥让父母解放双手的作用。新机收货后的老规矩是给大家来个测评记录,虽然我用过很多台扫地机器人人了,但在德国销量第 一的斐纳TOMEFON我确实还是第 一次接触:【开箱】斐纳TOMEFON的外包装有两层,打开黄色的瓦楞纸盒子里面才是斐纳TOMEFON的正式外包装盒,里面的纸�

  • 韩国机器人官员“自杀”:自己摔下楼梯后失灵

    机器人会自杀吗?本月26日,韩国一市政厅对位外宣称,他们的首个行政官机器人在自己摔下楼梯后失灵,当地媒体将其称为该国首个机器人自杀事件”并进行哀悼。实际上机器人自杀”早已发生过,2017年,美国保安机器人投池自杀”的话题和照片在互联网走红,有网友称其意识觉醒”后反抗压迫。

  • 首个支持多模态交互的机器人平台方案!科大讯飞机器人超脑平台2.0发布

    快科技6月27日消息,科大讯飞在今天的讯飞星火V4.0发布会上,还揭晓了机器人超脑平台2.0项目,将以视听融合的多模感知交互和基于大模型的机器人大脑。通过软硬件一体的方式构建机器人新交互,将讯飞星火大模型进一步赋能机器人领域。据悉,讯飞机器人超脑平台解决了机器人在嘈杂环境下听、说、理解和思考的难题。借助这套系统,机器人不仅能实现语音识别、自然语�

  • 扫地机器人哪个牌子好?2024新款热销扫地机器人评测

    无论哪个行业都是卷得不行,浸透了AI智慧的扫地机器人行业更是如此,什么自动积尘技术、气体导流零缠绕设计、超大自动集尘充电桩,看上去黑科技质感满满,但真正在顽固灰尘和边角灰尘处理、零误撞等消费者们最关心的环节上做得怎么样?必须全面测评一番今年的新款热销机型才行哦!斐纳TOMEFON斐纳TOMEFON扫地机器人是在德国销量名列前茅的扫地机器人品牌,售价三千出头,配置了当前稳定性最高LDS激光雷达导航系统,拥有强大的全局规划能力,续航时长最长可达150分钟,在智能方面做了9项全新升级,因此成为了很多精明消费者的优选品牌。斐纳TOMEFON激光雷达导航系统无惧光线明暗和地形复杂程度,在0.5平米的空间内也能游刃有余的展开清洁工作,在床底、沙发底、家具底层区域都能灵活进出极少出现被困情况,当发现地图之外的障碍物时,斐纳TOMEFON会灵敏的提前减速然后缓慢靠近绕圈打扫,不仅不会留下清洁盲区,其位于吸尘口内部的可浮动胶刷甚至还能深入地板缝隙4毫米深度捡拾陈年集尘,对于地面的清扫达到了超立体的效果;斐纳TOMEFON扫地机器人的使用成本还很低,单边尘刷聚拢灰尘无打飞颗粒灰尘的烦恼,平米恒压拖布借助机身重力和精确的出水量调节系统浸势带着顽固灰尘,对高端地板的保护效果更为出色;斐纳TOMEFON的湿拖工作噪音仅有40分贝,这样一来扫地机器人的使用就再无时间限制了,无论是休息时使用还是学习、工作时使用都不会影响到用户本人以及邻居,几乎在每个消费者们关心的环节都做到了尽善尽美。实测分析结果:在目前市面上的新款扫地机器人当中,新功能配置得多并不等同于扫地机器人会在顽固灰尘处理、边角灰尘处理、家具扫脚零误撞等用户们最关心的核心问题上做得更好,因此没必要花费大价钱盲目追高、追新,只要选购那些在消费者们最关心的环节上做到位了的品牌跟型号就足够了。

  • 岩芯数智展示机器人多模态能力

    在2024世界人工智能大会上,上海岩芯数智携Yan1.2多模态大模型亮相,不仅可以让大模型在手机、电脑、甚至树莓派端无损运行可以让机器人准确理解用户的模糊指令和意图。研发团队展示了一款部署Yan1.2多模态大模型的智能机器人“小智”,它能够基于Yan1.2的语音和视觉处理能力,实时识别环境、准确理解用户的模糊指令和意图,并据此控制其机械躯体高效完成各类复杂任务。当有人问“小智,你现在看到了什么”或手捧书籍邀请“小智”一同看书时,它能够基于多模态能力进行学习和创作,精确描述环境和人物特征、学习书籍信息。

  • 斯坦福炒虾机器人原班人马新作!最强大脑Gemini加持,机器人炫技导航玩出新花样

    【新智元导读】斯坦福炒虾机器人团队时隔半年再出新作,谷歌最强Gemini1.5Pro加持,MobilityVLA让机器人在836平方米的办公室里轻松导航。还记得年初爆火的斯坦福炒虾机器人吗?时隔半年,原班人马联合谷歌研究人员,重磅推出全新机器人自主导航的基础模型——MobilityVLA。软件和硬件设施的制造以及两者的结合,成为机器人制作领域最为头疼的难题。

  • FSD渐入佳境,视觉方案还在机器人中“打酱油”?

    一边是技术圈顶流,一边在当前行业应用中没什么存在感。两头拔尖优点与缺点都突出的特点,让视觉方案一直伴随着争议,在近些年的行业应用上也一直透着“底气”不足。在清洁过程中,机器人能够将脏污检测结果及位置与场景地图和轨迹进行叠加,实现全场景的脏污地图管理通过深耕算法,打破算力限制,并对智能化方面深度创新,INDEMIND用实力证明视觉方案绝非配角。

  • 日本研发出开车机器人:时速5公里 只能开直线和右转

    据报道,日本东京大学河原塚健人团队研发一款可以驾驶普通汽车的机器人。该机器人名为武藏,有74块肌肉”和39个关节,它每只手有五根手指,手脚上都有压力传感器。这个机器人能够做出高度拟人化的复杂动作,将其用于车辆驾驶的话,着实有点大材小用了,毕竟真正的自动驾驶,只在车辆上部署自动驾驶软件即可,用机器人反像是点错了科技树。

  • INDEMIND:智效赋能,让服务机器人服务于人

    商用清洁机器人的价值战。随着行业发展势头回归冷静,“卖家秀”时代成为过去,机器人拼技术、拼产品的价值战时代已然到来。以技术创新为原点,提升智效表现,赋能机器人工具价值,让服务机器人真正服务于人。

  • 后空翻、打太极、烤面包,人形机器人集体“整活儿” ,你最想带哪款回家?

    正在火热进行的2024世界人工智能大会上,人形机器人成为当之无愧的焦点。业内熟知的特斯拉、傅利叶、宇树科技、开普勒等明星企业均带来产品展示。我们已经可以看到人形机器人在汽车工厂实习、在物流仓储上班的场景,离它们走入寻常百姓家还会远吗?

  • 零沫AI产品分享社区:全球智能AI工具集,AI社区,AI工具箱产品库

    零沫AI产品分享社区是一个集合了全球智能AI工具的平台,提供AI社区交流和AI工具箱产品库,覆盖自然语言处理、机器学习、计算机视觉等多个领域。它为用户带来最新的AI技术发展趋势,寻找可靠的开源AI工具,提供全面资讯和资源。

  • Searcholic:AI驱动的电子书和文档搜索引擎。

    Searcholic是一个由人工智能技术驱动的搜索引擎,致力于为用户提供高效、可靠的电子书和文档搜索服务。它由在信息检索、数据科学和人工智能领域具有丰富经验的专家团队创建,旨在通过先进的搜索算法,为用户提供高度准确和相关的搜索结果。Searcholic不仅提供广泛的内容覆盖,包括学术论文、研究报告、技术文档、小说等,还注重用户友好的界面设计,确保用户能够轻松地搜索、预览和下载所需内容。此外,Searcholic非常重视用户的隐私和安全性,确保所有搜索和交互过程都是受保护和加密的。

  • Numina Math 7B:数学领域的开源AI模型,助力数学竞赛。

    Numina Math 7B是由Numina组织开发的AI数学模型,专注于解决高难度的数学问题,特别是在数学竞赛领域。该模型在AI数学奥林匹克竞赛中获得了第一名,显示出其在解决复杂数学问题上的强大能力。Numina是一个非盈利组织,致力于推动数学领域人类和人工智能的发展。

  • 小宾灯牌去除器:一键自动去除抖音粉丝灯牌

    小宾灯牌去除器是一款AI驱动的视频编辑工具,专为解决抖音粉丝灯牌问题而设计。它通过先进的算法自动识别并移除视频中的粉丝灯牌,提升视频的专业度和观众体验。主要优点包括简单易用、支持多种视频格式、GPU加速以及智能检测减少漏检。产品背景信息显示,它适用于主播、无人直播者、切片工作者和视频剪辑工作者等用户,帮助他们快速处理视频中的粉丝灯牌,提高工作效率。

  • AI小说家:人工智能驱动的小说创作平台

    AI小说家是一个利用人工智能大模型驱动的小说创作平台,支持创作者轻松完成万字长篇小说和短篇故事。它提供了向导式写作、多人物多视角的创作方式,并通过AI工具辅助创作,提升创作效率和质量。

  • AgentScope:构建大型语言模型支持的多智能体应用。

    AgentScope是一个创新的多智能体平台,旨在赋能开发者使用大规模模型构建多智能体应用。它具有易于使用、高鲁棒性和基于Actor的分布式特性,支持自定义容错控制和重试机制,以增强应用稳定性。

  • StockBot:基于Groq的极速AI聊天机器人,提供实时交互式股票图表和信息。

    StockBot是一款由Groq支持的AI聊天机器人,利用Llama3 70b在Groq上的Vercel AI SDK和TradingView的实时小部件,以对话形式回应实时、互动的图表和界面,专门针对您的请求。Groq的速度使得工具调用和提供近乎即时的响应成为可能,允许进行两次API调用,使用不同的专业提示返回响应。请注意:StockBot可能提供不准确的信息,不提供投资建议。它仅供娱乐和教学使用。

  • Athlabs:AI辅助的运动训练助手,实现无损伤训练

    Athlabs是一个利用人工智能技术为用户提供运动训练反馈的数字教练平台。它通过多模态AI模型提供即时、校正性反馈,帮助用户在没有运动损伤的情况下进行训练。平台还提供个性化指导,由专业体育专家提供精确的指导,以及为用户定制的挑战训练计划。此外,Athlabs还计划提供专家洞察,以进一步提升用户的表现。

  • GPT4oMini.app:高级AI对话生成器,免费获取答案。

    GPT4oMini.app是一个高级AI对话生成器,它允许用户通过自然语言与AI进行互动,获取各种问题的答案。该产品由Karthikeyan A创建,提供给用户一个平台,不仅可以使用GPT-4o-Mini,还可以无限使用完整版本的GPT-4o。产品的主要优点包括提供有效的时间管理策略,帮助用户准备技术面试,以及提供财务自由和生活设计方面的策略。

  • Album AI:AI驱动的相册,自动生成图像元数据并与之对话。

    Album AI是一个实验性项目,它使用gpt-4o-mini作为视觉模型,自动识别相册中图像文件的元数据,并利用RAG技术实现与相册的对话。它既可以作为传统相册使用,也可以作为图像知识库,辅助大型语言模型进行内容生成。

  • VGGSfM:深度学习驱动的三维重建技术

    VGGSfM是一种基于深度学习的三维重建技术,旨在从一组不受限制的2D图像中重建场景的相机姿态和3D结构。该技术通过完全可微分的深度学习框架,实现端到端的训练。它利用深度2D点跟踪技术提取可靠的像素级轨迹,同时基于图像和轨迹特征恢复所有相机,并通过可微分的捆绑调整层优化相机和三角化3D点。VGGSfM在CO3D、IMC Phototourism和ETH3D三个流行数据集上取得了最先进的性能。

  • aimo-progress-prize:AI数学奥林匹克解决方案

    这个GitHub仓库包含了训练和推理代码,用于复制我们在AI数学奥林匹克(AIMO)进展奖1中的获胜解决方案。我们的解决方案由四个主要部分组成:一个用于微调DeepSeekMath-Base 7B以使用工具集成推理(TIR)解决数学问题的配方;两个约100万个数学问题和解决方案的高质量训练数据集;一个自洽解码算法,用于生成具有代码执行反馈的解决方案候选项(SC-TIR);四个来自AMC、AIME和MATH的精心选择的验证集,以指导模型选择并避免对公共排行榜的过拟合。

  • NuminaMath:数学竞赛问题的解决方案集合

    NuminaMath是一套为训练最先进数学语言模型(SOTA math LLMs)而设计的数据库和模型。它包含860k+数学竞赛问题及其解决方案对,每个解决方案都使用了链式思维(Chain of Thought, CoT)推理进行模板化。此外,还有70k+数学竞赛问题,其解决方案由GPT-4通过工具集成推理(Tool-Integrated Reasoning, TIR)生成。NuminaMath通过提供高质量的数学问题和解决方案,为教育工作者和学生提供了一个宝贵的资源,帮助他们提高数学思维和解决问题的能力。

  • GRUtopia:大规模城市环境中的机器人模拟交互平台。

    GRUtopia是一个为各种机器人设计的交互式3D社会模拟平台,它通过模拟到现实(Sim2Real)的范式,为机器人学习提供了一个可行的路径。平台包含100k精细标注的交互场景,可以自由组合成城市规模的环境,覆盖89种不同的场景类别,为服务导向环境中通用机器人的部署提供了基础。此外,GRUtopia还包括一个由大型语言模型(LLM)驱动的NPC系统,负责社交互动、任务生成和分配,模拟了具身AI应用的社交场景。

  • Internet of Agents:智能代理互联框架,支持任务自动化与协作。

    IoAI (Internet of Agents)是一个智能代理互联框架,旨在通过高度模块化的设计,实现不同智能代理之间的自动化协作。它允许开发者快速集成第三方智能代理,并通过统一的接口进行任务分配和执行。IoA的核心优势在于其灵活性和可扩展性,支持多种应用场景,包括但不限于协作论文写作、基准测试和开放指令数据集。

  • UnderstandingDeepLearning-ZH-CN:深度学习领域的经典教材中文翻译

    《深度学习》是一本由Simon J.D. Prince所著的深度学习领域的经典教材,MIT Press于2023年12月5日出版。本书涵盖了深度学习领域的许多关键概念,适合初学者和有经验的开发者阅读。本仓库提供了该书的中文翻译,翻译基于原书的最新版本,使用ChatGPT进行机翻并进行人工审核,确保翻译的准确性。

  • ElevenLabs AI audio API :强大的AI音频API,提升项目互动性。

    ElevenLabs AI音频API提供了高质量的语音合成服务,支持多种语言,适用于聊天机器人、代理、网站、应用程序等,具有低延迟和高响应速度。该API支持企业级需求,确保数据安全,符合SOC2和GDPR合规性。

  • Swapy:简单几行代码,实现拖拽交换布局

    Swapy是一个框架无关的工具,它允许开发者通过简单的代码将任何布局转换为拖拽交换式的布局。它支持所有流行的前端框架,如React、Vue和Svelte,并且可以通过npm或CDN进行安装。Swapy的主要优点是它的易用性和灵活性,使得开发者可以快速实现复杂的拖拽功能,而无需深入了解拖拽交互的底层实现。

  • Finance Commons and the Bad Data Toolbox:开箱即用的文档AI工具箱,针对不良数据优化

    Finance Commons和Bad Data Toolbox是一系列针对文档AI研究和应用的模型和工具。它们专注于处理不良数据,包括OCR错误、结构混乱的文本等,以提高AI在文档处理中的鲁棒性。这些工具和模型有助于自动化流程,减少企业在准备内容时的工作量,同时支持下一代多模态文档模型的发展。

  • Morphic Studio:加入等待名单,体验新的故事讲述方式

    Morphic Studio是一个创新的故事讲述平台,旨在通过先进的技术手段,为用户提供沉浸式和互动式的故事体验。它利用最新的交互技术和视觉效果,让用户能够更深入地参与到故事中,感受故事的魅力。Morphic的主要优点包括:1. 沉浸式体验;2. 互动性强;3. 视觉效果突出;4. 易于操作和使用。产品背景信息显示,Morphic致力于通过技术革新,推动故事讲述方式的变革,满足现代观众对高质量内容的需求。

今日大家都在搜的词:

热文

  • 3 天
  • 7天