首页 > 动态 > 关键词  > 天猫精灵最新资讯  > 正文

天猫精灵发布AliGenie5.0人机交互系统 支持唇动、挥手等多模态唤醒和交互

2020-09-17 16:25 · 稿源: 凤凰网科技

凤凰网科技讯 9月17日消息 在阿里巴巴的云栖大会上,天猫精灵事业部发布了首个全场景人机交互系统AliGenie5.0,融合了视觉、语音、触觉等多种形态的交互方式。同时也发布的三款新产品——配备了10吋智能屏及大容量电池的天猫精灵CC10电池版、4吋智能屏产品天猫精灵CC MINI,以及第二代IN糖都搭载了该交互系统。

据天猫精灵事业部总经理库伟介绍,AliGenie5.0支持唇动唤醒、挥手唤醒等多种“拟人化”的唤醒方式,并直接给出反馈。例如,用户在音箱端开启设置“自然唤醒”后,在1米左右的距离下,当机器识别到有人开始盯着它说话时,不用再喊出唤醒词,就能直接自然对话。

AliGenie5.0还支持“云应用”技术,能够突破硬件的配置和性能限制,跨平台、跨终端,流畅使用Windows、Linux、Android等系统的丰富应用,用户甚至可以在天猫精灵上玩电脑游戏、上网课、体验3D渲染等。

目前该系统将同步面向开发者、智能家居合作伙伴开放。预计今年内会陆续支持汽车、房产、智能健康、儿童教育等领域的联合定制产品,覆盖80多个终端品类。

这次天猫精灵发布的三款新品中,CC MINI还集成了阿里自研的微内核操作系统,能够在小屏的产品上实现触屏交互,并整合闹钟、日程、家居控制等功能,开发了晨起、睡眠等核心场景的极简模式。

库伟也表示,智能音箱的形态,已经完成了“AI智能助手”第一阶段的市场普及,未来将出现更多具备多种交互形态、提供AI助手能力的产品形态,“当智能场景越来越繁杂时,就需要一个可动态适配所有场景的人机交互系统,来确保消费者体验的一致性,AliGenie也将不断升级,为机器赋予认知、理解和行动力,让每个人、每个家庭都拥有一个专属的智能助手。”

举报

  • 相关推荐
  • 谷歌“狙击”OpenAI,发布新一代大模型,主打Agent+多模态

    继量子芯片之后,谷歌又来抢“OpenAI双12直播”的流量了!就在刚刚,谷歌新一代大模型Gemini2.0突然登场,再次由谷歌CEO皮猜亲自官宣。新一代模型专为AIAgent打造,谷歌表示目前已经将2.0版本提供给了一些开发者内测,正在迅速将其集成在Gemini和搜索等产品线中。从OpenAI跳槽到谷歌的LoganKilpatrick表示,他们在GoogleAIStudio中创建了一个全新体验,展示了Gemini2.0视频理解、原生工具�

  • 不做Sora背后:百度的多模态路线是什么?

    当ChatGPT掀起国内“百模大战”,百度率先交卷文心一言。Sora再掀视频生成风潮,却传出李彦宏内部讲话“Sora无论多么火,百度都不去做”。大量的行业应用所产生的数据,又能为AGI的发展提供丰富的养分,形成良性循环,推动数据飞轮的高速运转,从加快我们迈向AGI的步伐。

  • 清华、面壁提出创新AI Agent交互:能主动思考、预测需求

    哪怕是ChatGPT等最先进的AIAgent都是传统的被动式Agent,即需要用户通过明确的指令显式告诉Agent应该做什么,Agent才能继续执行接下来的任务。近期清华大学联合面壁智能团队提出了开创性的新一代主动Agent交互范式,为AI交互带来了突破性的解决方案。随着技术的不断进步,我们可以期待看到更自然的人机协作模式,更智能的场景适应能力,以及更深度的个性化服务。

  • 北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

    北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。团队宣布LLaVA-o1的代码、预训练权重、数据集等即将全部开源。

  • AI日报:科大讯飞星火多模态交互大模型上线;Anthropic发布提示词优化新功能;腾讯AI智能工作台ima上线Windows版

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、科大讯飞星火多模态交互大模型上线实现“语音、视觉、数字人交互”三合一科大讯飞最新推出的讯飞星火多模态交互大模型标志着其从单一语音交互技术拓展到音视频流实时多模态交互的新阶段。多家汽车制造商参与认购,推动Robotaxi技术合作与全球布局。

  • 亚马逊祭出地表最强全家桶,多模态Nova却败给Claude 3.5

    【新智元导读】围剿英伟达,数十万颗自研二代芯片超算在建!亚马逊祭出地表最强全家桶,多模态Nova击败GPT-4o。亚马逊推出了号称最强大的多模态模型Nova系列。IDC在2023年12月发布的最新研究报告显示,英伟达当前在AI芯片市场中占据着约95%的主导地位。

  • 超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large

    法国著名开源大模型平台Mistral.ai,开源了超大多模态模型——PixtralLarge。PixtralLarge有1240亿参数,支持128K上下文,能理解文本、图表、图像等,也是Mistral.ai自家聊天助手leChat目前正在使用的视觉模型。LeChat提供了一个从模型到输出的完全集成平台,用户可以在一个平台上完成所有的多模态任务,无需在多个工具之间切换,简化了工作流程。

  • AI日报:阿里云逆天大模型Qwen2.5-Turbo;ElevenLabs支持打造对话AI智能体;Mistral推最强开源多模态模型Pixtral Large

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里云发布逆天大模型Qwen2.5-Turbo一口气读完十本小说,推理速度提升4.3倍!阿里云推出的Qwen2.5-Turbo大语言模型在上下文处理能力和推理速度上都取得了革命性的突破,令人期待其�

  • 首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

    【新智元导读】Meta最近开源了一个7B尺寸的SpiritLM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务能捕捉和再现语音中的情感和风格。在纯文本大模型取得进展的同时,其他模态数据,如语音与文本结合的语言模型也成为了一个热门的研究领域,但现有的模型要么在仅包含语音的数据上进行训练,要么是关注特定任务,如文本转语音、自动语音识别或翻译,在其他模态数据和任务上的泛化能力十分有限。研究人员还直接评估了模型对输入提示的处理能力,结果发现,无论是哪种提示,模型都能得到很高的评分,表明还有很大的空间来进一步提高模型在保持情感表达方面的能力,也意味着,智能体在理解和生成情感丰富的内容方面还有很大的潜力可以挖掘。

  • 苹果CEO库克:从来没有考虑过Apple Intelligence收费问题

    此前MarkGurman在播客节目中表示,苹果或将效仿iCloud订阅的形式,将部分AI功能以付费服务的形式提供,他们的长期计划或是推出类似AppleIntelligence”这样的产品。这则消息曝光后引发热议,业界普遍认为,苹果AI后续会收取费用,因为将重心从硬件转向具有更高盈利能力的服务业务已经是苹果过去几年经营策略的重要路线。自1998年以来,我的生活就跟这家公司息息相关,苹果因改变世界、为人类提供改善生活品质的伟大产品被历史铭记。

热文

  • 3 天
  • 7天