首页 > 传媒 > 关键词  > 正文

无门把手搭配车外语音 8倍算力的8295座舱能力解析

2023-09-20 10:39 · 稿源: 站长之家用户

     9 月 19 日,极越 01 首批量产下线,并正式面向用户开启预订,预售价25. 99 万起。根据官方信息,用户下订成功可获得 10 倍定金膨胀,邀请好友更可享受价值 5000 元的限时邀请奖励。

       这款千呼万唤始出来的AI新物种可以说未上先红,无论是之前业内对首发高通 8295 芯片 8 倍算力带来的座舱能力的猜测,还是“吉利浩瀚之下无弱车”的市场反馈,都激发了无数对极越 01 智能化能力的强大好奇。

       同日,极越官方也发布了一段实车视频,同时在下线活动的直播中还释放了实车路测视频片段,可以说是剧透了一下这款“汽车机器人”的几大看点。

       UWB钥匙 自动解锁开车门,迎宾仪式感拉满

       视频开场,可见极越 01 感应到主人后瞬间觉醒,车机启动大屏点亮,后视镜打开,车灯亮起,车门自动开启,用户进入车内车门自动关闭,全程没有用手。

       无把手电动感应门

       结合视频画面和之前的官方信息,可以推断极越 01 的电动感应门均采用无车外门把手的超前设计和电动开合功能,可见车外语音的重要安排就是车门互动。想象一下,上下车全程仪式感拉满,双手插兜的炫酷霸道总裁风,极越 01 这就帮你实现。当然更实用的是,无论是你牵着小朋友还是拎着手提箱,或者抱着快递,都能不紧不慢优雅上车。无把手的设计帅是帅,可是有没有人担心万一开不开门可怎么办啊?我们大胆猜测品牌在各种软件控车的同时,都留有冗余机械系统,在智能和安全上去做美好平衡。

       封印“开门杀”

       视频中还透露了一个更妙的细节,当车检测到后方有自行车快速靠近的时候,会阻止开门,这是因为电动感应门上的毫米波雷达可以准确探测和避障,防止“开门杀”。 这可真是解决了很多车主的一大痛点,从此下车更安全从容。光是车门就如此“超感”,不禁让人猜测极越 01 到底密布了多少传感器来实现全车智能感知?

       35.6英寸一体化大屏, 8295 好搭档

       一上车,大胆简洁的设计风格吸睛无数,极越 01 全车取消了左右拨杆、换挡杆以及中控物理按键。35. 6 英寸的6K超清大屏极为拉风,并且是一块无切割的一体式大屏,业内领先。大屏不仅在驾驶场景中可分区充分显示地图等关键信息,还可让用户在全屏中完全沉浸在游戏或观影等娱乐场景。借助首发搭载高通 8295 的 8 倍算力,可以在实车演示视频中看到,现实操作大屏的拖拽、缩放、左右移动都相当流畅,已经和手机的体验不相上下。

       全离线语音

       在实车视频中,语音交互系统随时随地接得住来自不同乘客,从车内不同方向抛来的彼此毫不相干的指令,从温度设定到导航到观影不一而足。根据官方数据,极越 01 语音识别速度快至0. 5 秒,可以想象这个速度已经能够媲美和真人自然交流。细心的朋友还可以发现语音助手的小名:SIMO。SIMO不仅可以实现“主驾免唤醒”,而且可以让多位乘客四音区“连续说”而不相互干扰。SIMO就是“see more”的缩写,中文意为看见更多。不过联想到汽车机器人的能力设定,see more也许并不仅是指视觉上的看见,而代表着AI赋能的全车智能感知能力。

       官方信息透露,极越 01 是首 个实现全域全离线语音功能的车型。可以通过语音实现几乎所有车内车外交互场景,比如智能驾驶、地图导航、车辆控制、系统设置等。全离线语音不仅可以提升交互速度,还可以最 大限度保证用户隐私安全;更重要的是,能够完全摆脱对网络信号的依赖,在隧道、地库、山区等弱网甚至断网环境下也不会卡顿,照样可以顺畅交流并且使用导航等功能。

       这样强大的语音交互能力也得益于高通 8295 的超强算力,本次极越完全启用双NPU(单NPU 30TOPS),60TOPS算力支撑AI大模型“上车”。百度的AI能力未来还会持续加持,据说百度文心一言也将会在未来上车。这样的话,大屏叠加语音,极越的用户真的可以完全在车内放下手机,和汽车机器人好好交朋友了。

       自动升降尾翼与音响

       行驶过程开启,车辆会根据车速自动升起尾翼以降低风阻,据说极越 01 的风阻可以实现夸张的0.249,领先绝大多数大中型SUV车型,更节能同时也能带来更静谧的车内体验。

       根据车主的需求,世界 级大师调教的ROBO SOUND音响系统还可自动抬升,以实现最 佳音效。是不是可以清楚感受到汽车机器人正在变身的赛博朋克味道?

       3D智能驾驶地图

       在视频里展现的行驶过程中,3D智能驾驶地图可以更清晰的呈现车道级导航,而且可以实现静态地图导航和动态感知数据的全场景融合。与直播中实车上路的视频对比观看,可以发现3D智能驾驶地图的还原度非常高。关于极越 01 智能驾驶能力,这次视频没有透露更多,但业界周知极越 01 是行业率先有百度Apollo高阶自动驾驶全面赋能的智能汽车,智驾体验让我们拭目以待吧。

       多模态交互

       令人惊喜的一个小功能是多模态交互,当主驾转头向副驾的车窗说“打开那个窗户”,不用特指具体的内容,系统结合语音指令的同时捕捉身体动作,准确开启车窗。一个眼神就能懂你,这功能简直太适配人狠话不多的当代年轻人了。

       全沉浸休闲舱

       从视频中可见,极越 01 提供四种模式的全沉浸休闲舱:除了游戏,还有唱歌、观影、小憩,可以说是娱乐体验满格。

       实测视频中,嘉宾还在车上体验一场酣畅淋漓的《狂野飙车》,在一个真实的座舱内通过大屏感受加速、漂移,融合世界 级大师调教音响,沉浸式的特 效游戏体验令两人大呼过瘾,怪不得都舍不得下车了。据说这是极越与GAMELOFT深度开发合作车载正版《狂野飙车》,加上高算力加持,渲染得如此精细,玩high也不卡顿。

       车外语音遥控泊车

       更没想到车主下车后还能继续耍帅,一句“把车停进去”,极越 01 就乖乖入位了。可以确信这也同样归功于全场景语音能力和点到点智驾能力。试想下遇到狭窄刁钻的车位,只要站在车边说句话车就自己停进去,相信连老司机都得感叹真香。

       看完视频是不是感觉心痒难耐,跃跃欲试? 极越 01 目前已经开启预订,预售价25. 99 万起。相信实车体验也很快能约起来了,期待智能体验的“头号玩家”们可以重点关注一下。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • Nemotron-4-340B-Instruct:NVIDIA的高级语言模型,优化于英文对话场景。

    Nemotron-4-340B-Instruct是由NVIDIA开发的大型语言模型(LLM),专为英文单轮和多轮对话场景优化。该模型支持4096个token的上下文长度,经过监督式微调(SFT)、直接偏好优化(DPO)和奖励感知偏好优化(RPO)等额外的对齐步骤。模型在约20K人工标注数据的基础上,通过合成数据生成管道合成了超过98%的用于监督微调和偏好微调的数据。这使得模型在人类对话偏好、数学推理、编码和指令遵循方面表现良好,并且能够为多种用例生成高质量的合成数据。

  • BookSlice:让阅读更有趣,用游戏化的方式增加阅读量。

    BookSlice是一款面向忙碌人群的游戏化阅读应用,通过心理学原理帮助用户建立阅读习惯,并通过设置每日挑战来维持阅读连续性。它利用实施意图、习惯叠加等心理工具,使阅读变得习惯性和上瘾。此外,BookSlice还提供AI问答功能,帮助用户在阅读过程中获得上下文答案。

  • agentUniverse:基于大型语言模型的多智能体应用开发框架

    agentUniverse 是一个基于大型语言模型的多智能体应用开发框架,提供了构建单一智能体和多智能体协作机制的所有必需组件。通过模式工厂,允许开发者构建和自定义多智能体协作模式,轻松构建多智能体应用,并分享不同技术与业务领域的模式实践。

  • HunyuanDiT Distillation Acceleration:高性能图像生成模型的蒸馏加速版本

    HunyuanDiT Distillation Acceleration 是腾讯 Hunyuan 团队基于 HunyuanDiT 模型开发的蒸馏加速版本。通过渐进式蒸馏方法,在不降低性能的情况下,实现了推理速度的两倍提升。该模型支持多种GPU和推理模式,能够显著减少时间消耗,提高图像生成效率。

  • WonderWorld:从单张图片生成交互式3D场景

    WonderWorld是一个创新的3D场景扩展框架,允许用户基于单张输入图片和用户指定的文本探索和塑造虚拟环境。它通过快速高斯体素和引导扩散的深度估计方法,显著减少了计算时间,生成几何一致的扩展,使3D场景的生成时间少于10秒,支持实时用户交互和探索。这为虚拟现实、游戏和创意设计等领域提供了快速生成和导航沉浸式虚拟世界的可能性。

  • ChatTTS_Speaker:基于ERes2NetV2模型的音色稳定性评分与音色打标。

    ChatTTS_Speaker是一个基于ERes2NetV2说话人识别模型的实验性项目,旨在对音色进行稳定性评分和音色打标,帮助用户选择稳定且符合需求的音色。项目已开源,支持在线试听和下载音色样本。

  • fastc:轻量级文本分类工具,使用大型语言模型嵌入。

    fastc是一个基于大型语言模型嵌入的简单且轻量级的文本分类工具。它专注于CPU执行,使用高效的模型如deepset/tinyroberta-6l-768d生成嵌入。通过余弦相似度分类代替微调,实现文本分类。它还可以在不增加额外开销的情况下,使用相同的模型运行多个分类器。

  • MeshAnything:3D资产的自动生成工具

    MeshAnything是一个利用自回归变换器进行艺术家级网格生成的模型,它可以将任何3D表示形式的资产转换为艺术家创建的网格(AMs),这些网格可以无缝应用于3D行业。它通过较少的面数生成网格,显著提高了存储、渲染和模拟效率,同时实现了与先前方法相当的精度。

  • HunyuanDiT-v1.1:多分辨率扩散变换器,支持中英文理解

    HunyuanDiT-v1.1是由腾讯Hunyuan团队开发的一款多分辨率扩散变换模型,它具备精细的中英文理解能力。该模型通过精心设计的变换器结构、文本编码器和位置编码,结合从头开始构建的完整数据管道,实现数据的迭代优化。HunyuanDiT-v1.1能够执行多轮多模态对话,根据上下文生成和细化图像。经过50多名专业人类评估员的全面评估,HunyuanDiT-v1.1在中文到图像生成方面与其他开源模型相比,达到了新的最先进水平。

  • UniAnimate:高效生成一致性人物视频动画的模型

    UniAnimate是一个用于人物图像动画的统一视频扩散模型框架。它通过将参考图像、姿势指导和噪声视频映射到一个共同的特征空间,以减少优化难度并确保时间上的连贯性。UniAnimate能够处理长序列,支持随机噪声输入和首帧条件输入,显著提高了生成长期视频的能力。此外,它还探索了基于状态空间模型的替代时间建模架构,以替代原始的计算密集型时间Transformer。UniAnimate在定量和定性评估中都取得了优于现有最先进技术的合成结果,并且能够通过迭代使用首帧条件策略生成高度一致的一分钟视频。

  • LVBench:长视频理解基准测试

    LVBench是一个专门设计用于长视频理解的基准测试,旨在推动多模态大型语言模型在理解数小时长视频方面的能力,这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。

  • Mo:通过卡片式学习,轻松掌握AI科技知识。

    Mo是一款结合超现实主义艺术和堂吉诃德理想主义精神的AI科技学习APP。它通过卡片形式,以图文、动画、视频、语音等多样化内容,使AI和科技知识的学习变得生动有趣。Mo不仅覆盖了AI的基础知识,还包含了元宇宙、大数据、大模型等前沿技术,适合各种背景的学习者,旨在打造一个个性化的学习体验。

  • 开搜AI搜索:面向大众的AI问答搜索引擎

    开搜AI问答搜索引擎是一款面向大众的、直达答案的AI问答搜索引擎,它能够帮助用户从海量的文献资料中筛选出有用的信息,提供直接、精准的答案,并且能够自动总结重点、生成大纲、思维导图并下载。

  • AI Math Notes:一个交互式绘图应用,用于数学方程的绘制和计算。

    AI Math Notes 是一个开源的交互式绘图应用程序,允许用户在画布上绘制数学方程。应用程序利用多模态大型语言模型(LLM)计算并显示结果。该应用程序使用Python开发,利用Tkinter库创建图形用户界面,使用PIL进行图像处理。灵感来源于Apple在2024年全球开发者大会(WWDC)上展示的'Math Notes'。

  • VideoTetris:文本到视频生成的创新框架

    VideoTetris是一个新颖的框架,它实现了文本到视频的生成,特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术,精确地遵循复杂的文本语义,并通过操作和组合去噪网络的空间和时间注意力图来实现。此外,它还引入了一种新的参考帧注意力机制,以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。

  • Visual Sketchpad:多模态语言模型的视觉推理工具

    Visual Sketchpad 是一种为多模态大型语言模型(LLMs)提供视觉草图板和绘图工具的框架。它允许模型在进行规划和推理时,根据自己绘制的视觉工件进行操作。与以往使用文本作为推理步骤的方法不同,Visual Sketchpad 使模型能够使用线条、框、标记等更接近人类绘图方式的元素进行绘图,从而更好地促进推理。此外,它还可以在绘图过程中使用专家视觉模型,例如使用目标检测模型绘制边界框,或使用分割模型绘制掩码,以进一步提高视觉感知和推理能力。

  • GoMate:基于RAG框架的可靠输入和可信输出系统

    GoMate是一个基于Retrieval-Augmented Generation (RAG)框架的模型,专注于提供可靠输入和可信输出。它通过结合检索和生成技术,提高信息检索和文本生成的准确性和可靠性。GoMate适用于需要高效、准确信息处理的领域,如自然语言处理、知识问答等。

  • SD3-Controlnet-Canny:一种用于生成图像的深度学习模型。

    SD3-Controlnet-Canny 是一种基于深度学习的图像生成模型,它能够根据用户提供的文本提示生成具有特定风格的图像。该模型利用控制网络技术,可以更精确地控制生成图像的细节和风格,从而提高图像生成的质量和多样性。

  • Tencent EMMA:多模态文本到图像生成模型

    EMMA是一个基于最前沿的文本到图像扩散模型ELLA构建的新型图像生成模型,能够接受多模态提示,通过创新的多模态特征连接器设计,有效整合文本和补充模态信息。该模型通过冻结原始T2I扩散模型的所有参数,并仅调整一些额外层,揭示了预训练的T2I扩散模型可以秘密接受多模态提示的有趣特性。EMMA易于适应不同的现有框架,是生成个性化和上下文感知图像甚至视频的灵活有效工具。

  • Dream Machine AI:释放AI视频创造的力量,轻松生成惊人视频

    Dream Machine是由Luma Labs开发的一款先进的人工智能模型,旨在快速从文本和图片生成高质量的、逼真的视频。这个高度可扩展且高效的变换模型直接在视频上训练,使其能够产生物理上准确、一致且充满事件的镜头。Dream Machine AI是朝着创建通用想象力引擎迈出的重要一步,使每个人都能轻松访问。它可以生成带有平滑动作、电影质量和戏剧元素的5秒视频片段,将静态快照转化为动态故事。该模型理解物理世界中人与人之间、动物和物体之间的互动,允许创建具有极佳角色一致性和准确物理的视频。此外,Dream Machine AI支持广泛的流畅、电影化和自然主义的摄像机运动,与场景的情感和内容相匹配。

今日大家都在搜的词:

热文

  • 3 天
  • 7天