首页 > 传媒 > 关键词  > 消费者调研最新资讯  > 正文

XREAL 创始人聊 AR 和空间计算:先过中场,再想终局

2024-06-13 11:50 · 稿源: 站长之家用户

如果做个调研,消费者需要什么样的屏幕和内容,答案自然是更大的,更沉浸的,更立体的。

大概率的话,消费者是在手机上完成这个调研,同时做完调研之后继续玩手机,丝毫不会理会正在吃灰的 VR 头显,或者客厅的大电视。

强如苹果,暂时也没法扭转这种情况,iPhone 用户依旧依赖 iPhone,Vision Pro 用户不再像刚拿到的那两天那样充满好奇,即便它是这个星球上较好的「空间计算」设备,有着最精细的屏幕表现,最自然的手眼交互和最广泛的开发者支持。

按照 AR 初创公司 XREAL 创始人徐驰的话来说,Vision Pro 是 XR 行业三种正在收敛的实现方式之一,代表着沉浸感比较强,同时也是最笨重的 XR 头盔,其队友还有 Pico 和 Meta Quest 等品牌。

Meta 无心插柳的雷朋智能眼镜二代近来爆火,虽然没有显示功能,但因为功能单一,形态传统,反而卖得不错,这也是 XR 行业的代表方向之一。

第三种就是折中方案,即保留了传统眼镜的轻便形态,又兼顾 XR 头盔的显示效果,依靠分体式计算设备,将计算功能分离,以分体式 AR 眼镜形态示人,形态上复杂一点,体验上则要全面一些。这个方向的代表就是 XREAL。

既然绕不开手机,那不如,做个「手机」

多年以前,做电子书的亚马逊 Kindle 业务和传统出版商们有过一次巨大矛盾爆发,许多传统出版商认为亚马逊 kindle 电子书的模式,会毁掉出版业。但亚马逊高管却认为,纸质书的竞争对手不是电子书,而是 YouTube 视频,Steam 游戏乃至 Spotify 音乐或者 Netflix 网剧。

类似的,不管是苹果的 Vision Pro,还是 XREAL 的 AR 眼镜,其比较大对手也未必是彼此,而是手机。

如果不明白这个道理,不妨看看上市还不到一个季度的小米 SU7电动车,很多人认为它的上市会抢占其他品牌电动车,比如蔚来或者极氪的份额,但事实却是,在刚刚过去的5月,蔚来和极氪的销量都获得了超高 的增长。

因为在一个新兴品类里,出现一个具有引爆作用的新产品,一方面可能会挤压同类产品的生存空间,另一方面也可能带动整个市场的爆发,从而产生溢出效应,帮助整个品类发展。

▲ XREAL 创始人徐驰

比如 XREAL 创始人徐驰就说,苹果 Vision Pro 发布和上市之后,都带动了 XREAL AR 眼镜的销量。

XR 三种形态产品之间,竞争关系倒没那么大,品类进步的意义,远大于品类内部的竞争。以此而言,XR 设备想要争抢用户使用时间,自然就面临着比较大的竞争对手:手机。

需要说明的是,XREAL 目前的 AR 眼镜,诸如 Air2定位主要是显示设备,需要接入 Switch 掌机,或者 iPhone,再或者电脑来玩游戏看电影或者办公,中间可能还需要桥接一个 Beam 投屏盒子。

这就是前面所说的「分体式 AR 眼镜」,其显示和计算是分开的,这么做的原因当然是目前半导体和电池技术水平的限制,人类还没发做出算力强大,续航持久,显示精细且轻便无感的 XR 眼镜设备。

分体式 AR 眼镜自然也有一些缺点,比如连接上比较麻烦,计算设备依赖于第三方,适配上也可能遇到问题,以及,很多人用着 AR 眼镜,心里还是想去看看手机。

于是,XREAL 给了一个硬件解决方案:Beam Pro,一个形似手机的 AR 空间计算终端。

首先,Beam Pro 能做智能手机的大部分事情,除了打电话,因为它本身就是一个 Android 设备,兼容绝大多数的 Android 应用,海外版还获得了 Google GMS 认证,所以它也是一款非常方便的 AR 眼镜内容和应用管理设备。

第二,Beam Pro 依靠 XREAL 自主研发的 nebulaOS,可以把设备上的2D 场景释放到 AR 眼镜显示的3D 空间之中。比如用户已在 Beam Pro 内的应用里选好一款影片,再将 Beam Pro 插入XREAL Air 系列眼镜中,眼镜内会直接继续当前页面显示,呈现在3D 空间中。

第三,Beam Pro 使用两颗5000万像素超广角双主摄镜头,可以拍摄具有3D 空间效果的视频和照片,这些内容也可以播放在 XREAL 的 AR 眼镜中,这意味着 Beam Pro 不仅是内容计算设备,也是内容生产设备。

可以这么说,Beam Pro 是一款「打不过就加入」的设备,既然用户爱玩手机,用户的数据和账号体系主要在手机上,而且手机上内容又多,那不如就做一个类手机产品,把用户习惯,用户账号和数据,以及手机内容都移植过来,顺便再整点符合时代需求的3D 内容摄制等卖点,逻辑上是自洽且合理的。

XR 行业的「iPhone 时刻」还没来,那就专注「现在」

在发布会上,XREAL 创始人徐驰说:

苹果巧妙地把移动互联网生态「移植」过来,让大家看到了空间计算的未来,而我们努力让大家看到空间计算的现在。

而后在发布会之后的采访里,徐驰说了类似的话:

苹果让大家看到了空间计算的未来,没看到现在,现在的产品需要打磨一下,它从首先天开始发布的时候就不是奔着大众化的消费产品去的,我相信作为苹果的公司,一定有它消费级的野心,否则完全没有必要做,我们希望用一个更长的时间轴看待。

就连苹果都没法复制 iPhone 的奇迹到其他品类,但其实回过到2007年 iPhone 初代发布的时候,除了极少数人意识到了它的划时代意义,多数人依旧认为手上的诺基亚手机也还不错。

再往后,3G 网络乃至4G 网络商用,《水果忍者》和《愤怒的小鸟》出现,还有微信等应用出现,以及 iPhone4的巨大进步,诸多天时地利人和汇聚,iPhone 奇迹才见曙光。

所以,其实没有什么「iPhone 时刻」,只有「iPhone 时代」,是2007年到2013年间的一段狂奔。

一部好用的 iPhone,有来自三星的靓丽屏幕显示内容,苹果自研的 A 系芯片提供算力,高通的基带来收发4G&5G 数据,腾讯开发的《佼佼者荣耀》和微信,米哈游开发的《原神》,抖音集团开发的抖音等等等,甚至诸如瑞声科技提供的线性马达,索尼提供的相机 CMOS,都是 iPhone 不可分割的一部分。

XR 行业跳脱不出这样的朴素逻辑,除了要自研突破之外,也需要好相机,好算法,好开发者,本质上也是一盘大棋,有一些棋子的长驱直入,但更多的还是日拱一卒。

比如在采访中,XREAL 联合创始人吴克艰就提到,双目拍摄要保证两个摄像头同时拍,同时曝光,拍摄不同步或者曝光不一致都会出现问题,但这不是普通手机的拍摄需求。为了保证双目拍摄的效果,XREAL 需要和芯片提供商高通合作,来解决高像素摄像头同时拍同时曝光的需求。

再比如在坐车坐飞机的过程中使用 AR 眼镜,有可能因为持续颠簸导致画面抖动,用户会因此产生晕眩感,因此 XREAL 依靠高通骁龙芯片的算力和自研空间感知算法研发了3DoF 空间悬停技术,配合防抖技术,可以保证颠簸、震动和转向场景下的画面稳定。

实际上,现在的 XR 行业,是一个问题比答案多的行业,比如 VST(视频透视) 和 OST(光学透视) 的选择问题,前者技术相对成熟但体验有所残缺,OST 理论上体验较好但技术又不成熟,再比如在 AR 眼镜的显示技术路径上,离轴光学(Dream Glass AR 采用的方案)、BirdBath(XREAL 采用的方案) 和光波导(微软 HoloLens 采用的方案)这3种路线各有优劣,现在设备怎么选方案,怎么去打造未来更成熟的方案也是问题。

对于 XREAL 以及其他 XR 厂商,哪怕是苹果,都面临类似的种种问题,我们当然可以临高发问,Killer App 是什么?什么时候出现?半导体技术什么时候突破?手眼交互能定义未来 XR 交互吗?

但与厂商而言,需要面临和解决的问题,要具体而复杂得多。这就是徐驰一直说「现在」的原因,谁都知道离球门越近,进球概率越大,但与其寄希望于在己方半场吊射破门,不如先把球带过中场,往禁区再靠一点。

以此而言,Beam Pro 这样属于「现在」的设备,不那么性感,但足够合理,以及足够便宜,体验也在往前走,况且,1299元的售价,买不了吃亏买不了上当。

漫长的终局:胜利终将属于 AR 和 AI

徐驰坚持认为,当下的 XR 行业还处于赛道的早期,但赛道即使在早期,也可以用到信徒。他举了个有趣的例子:

有些人是在特斯拉早期的时候我觉得这车有意思,有的人是在 Model X 的时候才相信新能源车,有人在 Model3出来的时候才相信,有的人到今天还不相信。

那么,现在的 Model3就是新能源车的成熟形态了吗?也未必,比如即便是马斯克忠粉,或者特斯拉股东,也还是希望它的续航再长一点,或者 FSD 自动驾驶技术更聪明一点更便宜一些。

在一个前沿行业,做饼和画饼,往往是要并举的。

比如面对 AR 和 AI 两个关键词的时候,你很难不动心把它们联系在一起,并且畅想美好的未来。去年 Vision Pro 和 ChatGPT4在同一段时间面世,在我看来,几乎就意味着下一代计算设备的雏形初现了,眼镜为硬件,强大 AI 为软件的组合是最有希望颠覆手机的设备形态。

徐驰也认为,AR 是 AI 较好的载体,AI 是 AR 较好的交互,这是未来十年最能够改变消费电子和我们终端体验的两个最核心的技术,这种融合趋势开始有了苗头,他说:

比较新的 ChatGPT-4o,前一段时间 Google I/O 的发布会上,它完全没有讲任何 XR 的,它讲了跟 AI 眼镜的全新体验,我认为这些体验在经过一两年的打磨,真的会变的非常非常强烈地影响到今天大家的生活。

XREAL 联合创始人吴克艰则提到了,垂直领域的专用大模型结合 AR 眼镜非常适合垂类领域,比如医疗健康领域垂直大模型结合 AR 眼镜,已经有一些机构组织是在探索落地场景。同时他也认为,消费端更是如此:

我们非常坚信 AR 眼镜,特别是消费级的 AR 眼镜是目前我们看到较好的 AI 落地形式。因为你有首先视角,比如摄像头,你看到的东西和摄像头看到的东西是一样的,你说的话、听到的声音,上面的麦克风和 speaker 都可以从你的人的首先视角的角度接收所有的声音、图像的信息,相比于一些你得从兜里面掏出来的,我们看到其他形态的产品来说,反而我们认为 AR 眼镜从人的视角接近人获取以及跟这些 AI 相关的数据去进行交互的一个平台。

但正如前面所说,没有 iPhone 时刻,只有 iPhone 时代,在2021年时,徐驰认为,AR 设备未来五到十年会逐步取代智能手机,如今3年时间过去了,AR 眼镜销量还是6位数水平,手机依旧还是9位数,中间差距巨大。

所以到了2024年,徐驰又说:

可能2021年当时冒进了,我错了,我们认为 AR 眼镜取代手机是个漫长的过程。

但他也坚持认为,眼镜一定是比手机更合适的一个终端。如果这件事它的方向是相对正确的,到底是早两年、晚两年对行业从业者没那么重要。

并且,当下虽然 XR 头盔的销量远大于 AI 眼镜和 AR 眼镜,年销量接近万级别,但市场预期普遍认为,AR 设备远期更有潜力,徐驰也预测,越轻量化的设备它的量会越大,AI 眼镜和 AR 眼镜比 XR 头盔体量上大一个数量级,未来甚至还不止。

如果要给这个预测加一个期限和目标,徐驰说:

未来我们相对相信五年之能 AR 的体量远超过 VR。至于什么样的终端规模能让原生的内容生态健康成长出来,我们认为什么时候你能看到2000万到5000万销量的拐点,内容生态自然而然就长出来了。

希望3年之后,徐驰不必再来修改这个预测,以及 AI 眼镜和 AR 眼镜能够真正合流。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • XAnswer:智能搜索引擎,提供直接答案。

    XAnswer是一个智能搜索引擎,它能够根据用户的问题直接提供答案,而不需要用户浏览多个网页来寻找信息。这种技术的优势在于节省用户的时间,提高搜索效率,并且能够快速获得准确的信息。XAnswer背后是先进的算法和大数据分析技术,使其能够理解用户的查询意图,并提供相关的、准确的答案。

  • FlyPix AI:AI 驱动的地理空间分析解决方案

    FlyPix AI 是一个创新的地理空间技术平台,它利用先进的 AI 技术将复杂的图像转化为可操作的、地理参考的见解。无论是跟踪环境变化还是优化城市规划,FlyPix AI 的 AI 驱动方法都能提供无与伦比的精度和效率。该平台支持对象检测、定位、跟踪和监控,适用于多个行业,包括政府、建筑、可再生能源、农业、风险管理、石油与天然气、林业、智慧城市、港口业务和采矿等。

  • Vitra.ai:一键翻译创意作品至75+种语言

    Vitra.ai是一个提供在线翻译服务的平台,专注于帮助设计师和企业将创意作品翻译成多种语言,以扩大品牌在全球的受众范围。其核心优势在于通过上下文翻译引擎确保品牌声音和信息与当地受众产生共鸣,同时保持品牌身份。Vitra.ai还提供了翻译记忆和术语表功能,以确保跨语言的术语一致性和准确性。此外,Vitra.ai还提供校对服务,确保翻译的100%准确性,并支持跨团队协作,简化流程。

  • Tern:个性化旅行计划助手,快速规划您的旅程。

    Tern是一个AI旅行规划器,它利用人工智能技术为用户提供个性化的旅行计划。用户只需输入目的地和旅行天数,系统就会根据用户偏好快速生成行程。产品背景信息显示,Tern致力于简化旅行规划过程,让用户享受更轻松的旅行体验。目前产品处于免费试用阶段,具体价格信息未提供。

  • Hemingway Editor Plus:AI辅助写作工具,提升文章可读性。

    Hemingway Editor Plus是一款利用人工智能技术帮助用户提高写作质量的在线编辑工具。它能够快速修正冗长的句子、语法问题,并提供即时的重写建议,以增强文章的清晰度和可读性。产品背景信息包括被多家知名媒体如《纽约客》、NPR、Esquire等推荐。价格方面,提供14天免费试用,之后可选择月度或年度订阅服务,具有不同的订阅计划以满足不同用户的需求。

  • AIEntries:自动化创建WordPress标准文章的插件

    AIEntries是一个WordPress插件,利用Google的GEMINI人工智能和stability.AI,根据WordPress管理视图中的可配置参数自动化创建标准文章。它结合了多个免费API来确保内容质量,包括获取真实文章的News API、基于真实文章生成原创内容的Google Gemini API,以及根据AI生成文章标题生成文章特色图片的Stability AI。

  • WordSea:通过可视化辅助词汇学习

    WordSea是一个创新的应用程序,旨在通过展示可视化图像和定义来丰富你的词汇量。该应用利用生成性人工智能技术创造助记符,帮助用户更好地理解和记忆单词的含义。

  • Inbox Report:详细分析你的邮箱活动,提高生产力。

    Inbox Report 是由 Maestro Labs 提供的一项服务,它提供了对用户邮箱活动的详细分析,包括关键指标和趋势,以帮助用户提高工作效率。Maestro Labs 是一家拥有 SOC II 和 GDPR 认证的公司,其产品 MailMaestro 被多家财富500强公司使用,以更快地撰写更好的电子邮件。Inbox Report 不会读取或存储用户的电子邮件,仅基于用户在特定时间段内收到的电子邮件总数生成报告。

  • MrScraper:数据抓取工具,一键获取所需信息。

    MrScraper 是一个全能的网络数据抓取工具,它允许用户无需编程知识即可从各种网站上抓取数据。它通过智能技术自动提取所需信息,支持大规模请求处理,并且具备浏览器自动化功能。用户可以轻松创建抓取器,自定义选择器,并根据需求设置抓取任务。产品背景信息显示,MrScraper 被世界领先公司信赖,拥有强大的企业级性能,能够处理数百万级的数据。

  • Moneystack:人工智能可视化你的财务状况

    Moneystack是一个旨在帮助用户清晰了解当前和未来财务状况的在线工具。它通过简洁直观的界面,让用户能够轻松输入收入和支出数据,从而预测和规划自己的财务未来。该产品由Memberstack团队开发,不仅免费提供给用户,而且注重数据的安全性和隐私保护。

  • Speech to Note:将语音转化为强大的内容

    Speech to Note是一个AI驱动的语音识别工具,能够即时将口语转换为文本。它使用先进的语音转文本技术,将您的语音转换成可以编辑或分享的简洁摘要。该产品由GPT-4技术支持,旨在提升生产力并释放创造力。

  • AutoApply:AI驱动的自动化求职助手

    AutoApply是一个AI驱动的求职平台,通过自动化技术帮助用户快速申请工作,节省时间并提高求职效率。它通过分析用户的简历和求职意向,自动匹配合适的职位,并生成个性化的求职信和简历。此外,AutoApply还提供24小时服务,让用户随时随地都能申请工作。

  • llama-agentic-system:Llama 3.1模型的系统级代理组件

    Llama-agentic-system是一个基于Llama 3.1模型的系统级代理组件,它能够执行多步骤推理和使用内置工具,如搜索引擎或代码解释器。该系统还强调了安全性评估,通过Llama Guard进行输入和输出过滤,以确保在不同使用场景下的安全需求得到满足。

  • SpeechGPT2:全端到端的类人语音对话模型

    SpeechGPT2是由复旦大学计算机科学学院开发的端到端语音对话语言模型,能够感知并表达情感,并根据上下文和人类指令以多种风格提供合适的语音响应。该模型采用超低比特率语音编解码器(750bps),模拟语义和声学信息,并通过多输入多输出语言模型(MIMO-LM)进行初始化。目前,SpeechGPT2还是一个基于轮次的对话系统,正在开发全双工实时版本,并已取得一些有希望的进展。尽管受限于计算和数据资源,SpeechGPT2在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有不足,计划未来开源技术报告、代码和模型权重。

  • Meta-Llama-3.1-405B-Instruct:多语言大型语言模型,优化对话场景。

    Meta Llama 3.1是一系列多语言的大型预训练和指令调整的生成模型,包含8B、70B和405B大小的版本。这些模型专为多语言对话用例而优化,并在常见行业基准测试中表现优于许多开源和闭源聊天模型。模型使用优化的transformer架构,并通过监督式微调(SFT)和强化学习与人类反馈(RLHF)进行调整,以符合人类对有用性和安全性的偏好。

  • Meta-Llama-3.1-405B-Instruct-FP8:多语言对话生成模型

    Meta Llama 3.1系列模型是一套预训练和指令调整的多语言大型语言模型(LLMs),包含8B、70B和405B三种规模的模型,专为多语言对话使用案例优化,性能优于许多开源和闭源聊天模型。

  • MIT MAIA:自动化解释性代理,提升AI模型透明度

    MAIA(Multimodal Automated Interpretability Agent)是由MIT计算机科学与人工智能实验室(CSAIL)开发的一个自动化系统,旨在提高人工智能模型的解释性。它通过视觉-语言模型的支撑,结合一系列实验工具,自动化地执行多种神经网络解释性任务。MAIA能够生成假设、设计实验进行测试,并通过迭代分析来完善其理解,从而提供更深入的AI模型内部运作机制的洞察。

  • Meta-Llama-3.1-405B-FP8:多语言大型语言模型,优化对话和文本生成。

    Meta Llama 3.1是一系列预训练和指令调整的多语言大型语言模型(LLMs),包含8B、70B和405B三种大小的模型,专门针对多语言对话使用案例进行了优化,并在行业基准测试中表现优异。该模型使用优化的transformer架构,并通过监督式微调(SFT)和人类反馈的强化学习(RLHF)进一步与人类偏好对齐,以确保其有用性和安全性。

  • Mermaid AI:快速高效的文本到图表生成工具。

    Mermaid AI是一个由Mermaid JS团队开发的图表生成工具,它通过文本快速生成图表,简化了文档流程,提高了团队间的沟通效率。它支持多种图表类型,包括流程图、序列图、Git图等,并且具有代码驱动的自动化功能,使得设计系统和新成员入职更加高效和易于管理。

  • OmniAI.ai:一站式AI应用部署平台。

    OmniAI是一个提供统一API体验的AI应用构建平台,支持在现有基础设施内运行,支持多种AI模型,如Llama 3、Claude 3、Mistral Large等,适用于自然语言理解、生成任务等复杂需求。

今日大家都在搜的词:

热文

  • 3 天
  • 7天