首页 > 业界 > 关键词  > 机器最新资讯  > 正文

谷歌PaLM-SayCan模型可让机器人更好地理解自然语言并执行复杂任务

2022-08-17 20:14 · 稿源: cnbeta

长期使用 Alexa、Siri、Google Assistant 等数字助理的朋友,或许已留意到这项技术正在变得愈加智能。与此同时,近年来的机器人技术也在突飞猛进。以谷歌为例,该公司有在演示一款乒乓球机器人,旨在训练其应对快速、自适应、且精确的任务挑战。Google 研究员接触科学家兼机器人技术负责人 Vincent Vanhoucke 表示:“在一鸣惊人之前,你必须勤学苦练”。

在速度和精度之外,Google 还希望通过实验,攻克人类语言和机器人技术的交叉点。截至目前,这家科技巨头已在自然语言水平上取得了让人印象深刻的飞跃。

举个例子,你可能会对一个人说 ——“有空帮我从柜台拿一杯饮料吗?”

尽管对于人类来说,这句话的语境相当简洁。但是对于一台机器人来说,其中包含的信息量很可能将其绊倒。

因为‘有空’这词语可能不包含任何意义,也可能是趁着机器人正在干另一件时与之通过自然语言交互。

如果机器人过度理解了字面含义,它可能会回答一句‘当然可以’—— 即便用户并未明确要求它这么做。

若机器人更加钻牛角尖,它可能又会陷入该帮你拿哪一种饮料的纠结。

好消息是,Google 正在使用该公司的 NLP 系统拉解决一些问题。在 Pathways 语言模型(PaLM)的帮助下,机器人有望更准确地接收并理解人类的真实所想。

下一阶段的挑战,则是审视机器人能够切实做到哪些事情。比如让你让机器人拾取冰箱顶部的一瓶清洁剂时,它是否会小心安全地摆放到儿童不易接触到的地方。

不过在此之前,Google 还是会着眼于更加普适性的任务。简单的有‘向前移动一米’,稍微高级点的可以是‘去厨房拿一罐可乐’。

然后才是复杂多步任务的拆解执行,比如 ——‘啊哦,我不小心将可乐撒地板上了!能帮忙清理干净、并再给我拿一杯吗?’

对此,Google 选择的方案是利用语言“讲述”(Say)模型中所包含的知识,来帮助机器人确定并评估哪些高级指令“可否”(Can)派上用场。

在融汇了 PaLM 语言模型之后,Google 已将它重命名为 PaLM-SayCan,且正在自家实验室使用来自 Everyday Robots 的一些机器人(上图展示其已学会何时去充电休息)。

当然,在投入实际商用之前,这项技术显然还有相当多需要完善的地方,尤其是需要事先收集极其庞大的知识与技能数据集。

举报

  • 相关推荐
  • Google Gemini vs Deepseek:谁更适合你的业务场景?AI大模型选型终极对比指南

    企业在选择大模型时面临两难:国际大厂的Gemini技术先进,但国内DeepSeek性价比突出。AIbase平台通过真实场景测试数据指出:1)跨境电商客服场景中,Gemini多语言识别准确率提升12%,但需注意API延迟问题;2)金融研报分析场景下,DeepSeek支持128K长文本且成本仅为Gemini的1/3。决策关键:抛开参数迷雾,聚焦成本、响应速度、语言支持和场景匹配四大维度。AIbase提供可视化对比工具,3分钟生成专属选型报告,让技术决策不再玄学。

  • 小渔夫20周年荣膺Google双料大奖,共筑品牌出海新生态

    2025年8月14日,小渔夫在Google中国总部举办的B2B代理商高层研讨会上,凭借出海营销领域的突出贡献,成为全国唯一同时获得谷歌“百万会员俱乐部战略合作伙伴”与“星火Plus优秀客户成长合作伙伴”双项认证的企业。这标志着谷歌对其技术实力和重塑B2B出海营销模式的战略认可。双方将携手推动B2B客户从效果营销向全方位海外营销转型,打造行业标杆案例,助力更多中国B2B企业在国际舞台绽放光芒。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • 华为MatePad Mini官宣9月4日发布

    今日,华为正式对外宣布,其首款旗舰小平板——华为MatePad Mini将于9月4日震撼登场,官方Slogan定为“超强,超Mini”,预示着这款新品将在性能与便携性上实现双重突破。 此前,知名数码博主“数码闲聊站”已提前透露,华为MatePad小平板已顺利入网,并定位为全能轻薄型设备。据进一步爆料,该机将采用8.8英寸小尺寸机身设计,搭配16:9比例的OLED屏幕,为用户带来极致的视觉

  • 维谛(Vertiv)宣布收购生成式AI软件领军企业Waylay NV

    维谛技术(Vertiv)宣布收购比利时生成式AI软件企业Waylay NV,旨在提升关键数字基础设施的运营智能化水平、系统优化能力及服务体验。此次收购将整合Waylay先进的AI驱动自动化平台,帮助客户实现数据中心电力与热管理系统的实时监控、预测性维护和动态优化,应对AI工作负载快速增长的需求。维谛CEO表示,这将加速公司智能化基础设施愿景的实现,助力客户提升运营效率与�

  • 解锁空间潜能,罗地格RESPACE,打造智慧城市的交通新枢纽

    荷兰阿姆斯特丹运河区地下自动停车系统启用两周年,成为传统保护与现代创新融合的典范。该系统采用RESPACE混合托盘与机器人技术,在有限空间内最大化停车位,已服务超5.96万辆车。项目巧妙选址于历史悠久的运河下方,既保留文化遗产风貌,又提供便捷可持续的停车方案,实现现代功能需求与历史保护的完美平衡。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • Panduit 泛达通过技能发展为青年赋能,荣获 2025 年亚洲负责任企业奖

    Panduit公司凭借“亚太技能改变生活计划”荣获2025年亚洲负责任企业奖。该计划通过技术培训中心、在线学习平台、技能竞赛和实习机会,为亚太地区青年提供职业教育和实践机会,助力缩小技能差距。项目已从新加坡扩展至中国和日本,致力于推动包容性经济发展,并与联合国可持续发展目标高度契合。

  • 专业闪光迈入普及时代?唯卓仕 Spark Z3 重塑 TTL 闪光灯性价比标杆

    国产光学品牌唯卓仕推出全新Spark Z3 TTL闪光灯,仅售268元。该产品最大亮点是将专业级TTL自动闪光功能下放至亲民价位,支持智能测光与功率调节,显著降低复杂光线下的曝光难度。机身采用哑光金属质感设计,重144克便于携带,支持Type-C快充和光引闪功能。这款产品填补了低价位专业闪光灯的市场空白,有望推动入门级闪光灯市场的普及化进程。

今日大家都在搜的词: