首页 > 传媒 > 关键词  > 人工智能最新资讯  > 正文

旷视科技唐文斌“技术信仰”背后体现的是对未来趋势的判断

2024-06-11 13:57 · 稿源: 站长之家用户

旷视科技联合创始人、CTO唐文斌做客正和岛直播间,与正和岛副总裁刘海燕共同探讨了AI场景应用的商业化路径,以下是直播精华内容摘录。

主持人:大家最近对于AI的热情可以说是以前没有高涨,各界都在探讨ChatGPT可能带来的一些深刻影响,我们想了解一下您是如何看待现在全民关注AI的火爆现象?

唐文斌:我觉得全民关注是一件很好的事情。

在技术上,大模型并不是特别新的概念,在过去的几年里,大家都持续在研究它,只是现在它被做成了一个比较好的人机交互界面呈现了出来,让大家发现它有很多被应用的可能性。

因为大模型的技术发展,某种程度上让人看到了通用人工智能(AGI)的希望。它体现出来的技术能力是令人兴奋的,带来的应用也有很多种,主要可以分成在数字世界和物理世界中的应用,数字世界中的应用就是AIGC,包括文字生成、图片生成等内容,类似数字助理的能力;在物理世界,则是与机器人结合。

所以我觉得大模型能够带来很多新应用的产生,全民关注它,去想如何把技术应用在生产生活中,给我们带来便利,这是一件特别好的事情。

主持人:您觉得跟国外相比,中国在人工智能层面的应用有什么领先和落后的地方?

唐文斌:坦白讲肯定还是有差距的,在更偏基础层面的领域我们是需要正视这个差距的,当然现在国内学术人员也都在非常努力地填补差距。不过,我觉得国内在应用层面做的还是很好的,甚至可能比国外做的更好。因为我们的用户体量很大,而且拥有大量的生活、生产场景,这些值得我们去思考怎么用AI技术做到降本增效,提升用户体验。

刘海燕:我一直很好奇,你们持续在基础研究上做投入,拥有一个非常大的研究院,在你们创业起始,就是从技术出发的,然后逐渐走到应用领域,这是一个从技术到应用的过程,实际上这是更难的一条路。如果从应用开始做,也许商业化的路径会更快一点。那么,你们为什么选择了这条相对来说较难的路。

唐文斌:我觉得这可能也不一定是我们的选择,这与每个人的“基因”都有关系。当年我们三个人创立这家公司时,坦白讲,在应用层面上其实也没太想好,但我们一直非常坚信AI可以给很多场景带来价值,但怎么用,用在哪些场景,当时并没有想太清楚。

当年创业时,深度学习已经逐渐开始发展,我们也在寻找如何把技术和场景结合的方式,我觉得这个跟我们自身的“基因”是有非常强的关系,我们本身就是搞技术出身的,在技术能给场景带来差异化的领域里,我们才有可能做的跟别人不一样,所以这是技术基因决定的。

刘海燕:在2017年,你们又做了一次抉择,选择了物流这个赛道,为什么选择它,而且持续深耕在这个领域里呢?

唐文斌:进入物流领域是有一些机缘巧合的,因为我们一直在想把技术用在何处。我觉得还是要回到最终用户价值上,技术能否极大地降低用户成本、提升效率、优化体验。

我们一直在寻求这样的场景,通过AI为它提供更好的解决方案。在2015、16年,我和印奇一起去了一家做物流的第三方运营公司,当时仓库里有好几百人,占地大概四万多平方,其中有一个电子商务的仓库,网上用户下订单,就会有人拉着小推车像在仓库里逛超市一样找到对应的货品然后寄出。仓库里的人跟我们讲,他一天大概要走40公里左右,相当于一天跑一场马拉松。因为工作内容太辛苦,人员流动很大。在这个场景的启发下,我们觉得应该用机器人去解决这些问题,减轻人员工作强度,提升工作效率,提高客户的投资回报比,帮助他们实现更好的经济效益。当时对方也在思考这些事情,所以就开始了物流领域的探索。

刘海燕:旷视一直做软硬一体化的产品,那在物流行业解决方案当中,有没有让你特别自豪的一款产品或者解决方案呢?

唐文斌:在回答这个问题前,我想先分享我们对产品和技术研发的想法,像我们这样技术出身的人适合解决什么问题——就是问题已经存在,但是没有被很好的解决,所以我们可以用一些新的产品和技术把它解决得更好。

再回到您的问题,在去年我们推出了一款产品——旷视智能托盘四向车,它是一个跑在货架上的移动机器人,可以用来做托盘搬运,主要用于密集存储场景,它能够提供非常有效的进出能力。

四向车其实是物流里业已存在的产品形态。

在与行业前辈们探讨中发现,市场上已有的四向车没有很本质地解决客户痛点,因为第 一车速不够快,造成了整体工作效率偏低;第二,当把货品存储得更加密集时,它很难进出。

比如在一个仓库里,如果要用最小的面积去存储2万个托盘的货位,同时每小时可能要进出1000个托盘,那怎么能够做得更密集,更省地,以及需要用多少辆小车来完成这样的进出任务,这里面其实是需要有很强的算法调度。

而且还会遇到一个问题,货物SKU也很多,货品存在密集存储库里,它就有可能会产生类似于华容道的问题,所以仓库存储里有很多策略性问题。我们重新思考了这些问题,找到一种合适的方案提高投资回报比——对四向车的车体、调度算法等进行优化,使得托盘四向车解决方案是一种用户用起来更舒服、效率更高、成本更低的方案。

最后,经过我们的努力,把四向车的效率大概提升了一倍以上。

可以说AI解决方案,到底给你带来什么价值,就是省人、省地、省钱、省心。

刘海燕:那为什么旷视会有这方面的能力呢?这个物流问题我觉得可能有很多人都看到了,但是可能都解决得不够好,那么支撑我们去解决这个问题,或者说解决得更好的原因是什么呢?

唐文斌:解决行业问题其实是需要复合能力的,就是既要对行业场景有所了解,同时也要具备软件、算法这些技术能力。

我们看到很多行业里存在的问题是这两拨人“绝缘”,懂行业和懂算法的不在一起,所以我们的核心优势是带着AI技术的能力去进入到了一个行业,跟行业里面的人一起去探讨和形成一个好的解决方案,然后能够真真正正地去解决他的问题,提供更有效的一种方案。

刘海燕:顺着刚才的问题,我再问一个问题,物流的下一步会是什么样,你能不能描绘一下未来的产品会给大家带来哪些更新的价值。

唐文斌:我认为物流是一个非常大的场景,就是从生产结束到消费者手上,整个链条上都是物流部分,它具有巨大的发展空间。旷视目前做的主要是仓库自动化,再具体而言甚至是仓库里以托盘形态为主的场景,我们能实现更密集的存储、更高的效率、更节能、更省钱等价值。对于未来发展,一方面仓库里面除了以托盘的形态,还有别的形态存在,那我们也会有相应的产品和解决方案;另一方面,从仓库向外延伸,走到园区里,进行跨仓的工作,可以帮助客户持续降本增效。

当物流类产品从仓库内走出来时,从某种程度上来看,就是自动驾驶环节了。

所以我认为整个环节里有特别多的机会可以让AI技术、机器人技术去解决。而解决问题的方式,一定是从一个比较扎实的小点开始,每一个产品解决一部分问题,最终提供最 优的投资回报比的产品形态。

刘海燕:其实很多实体企业的智能化发展是逐步演进的过程,在这其中我们也会经常听到一些抱怨,比如过程当中大家觉得不尽如人意,或者是觉得没有想象中智能,那么面对客户抱怨的时候,你是怎么解决这些问题的?

唐文斌:我觉得对客户期望管理是很重要的。现在大部分客户对技术是有一定了解的,他们有非常好的认知,当然也有极端情况存在,觉得AI无所不能。但是要达成共识的是,技术能解决一定的问题,但不能解决所有问题,数字化、智能化,其实都是一种手段、一种工具。

但我觉得现在的绝大部分客户思路是非常清楚的,他们知道要做两件事情,有横有纵,横向通过数字化去形成数据的基座,纵向是要在底座之上形成一个个应用,并思考它们的投资回报比。

我们一定要清楚一件事,我们没有客户懂他们的场景,不要试图去做客户的老师,所以我觉得很多东西是大家一起交流和碰撞出来的,这是一个相向而行的过程。

刘海燕:旷视的组织文化是怎么样的?因为组织文化是一个企业管理的永恒话题,而且每一家企业都有自己的文化基因,如果让您用一个词来形容旷视的企业文化,它可能是什么词呢?

唐文斌:我们内部叫“技术信仰 价值务实”,这已经成为了我们的企业文化基因。

旷视之所以存在,是因为我们相信AI的可能性,相信技术可以改变世界,相信在技术之上能够延伸出更多的工具和能力对不同的场景带来价值。但是作为一家公司,必须要形成价值闭环,即提供给客户的不仅仅是算法,或者idea,要提供产品、解决方案,让技术在客户端形成价值闭环,这样才能够成为一个可持续的公司,所以我觉得这两点都非常重要。

当然,“技术信仰”不是对技术的盲目崇拜,它最深层的本质还是价值务实,背后体现的是一种对未来趋势的判断。有的价值不是在当下产生,而是需要当下更多的投入,在未来产生价值。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • Background Removal AI:使用AI技术快速去除图片背景

    背景去除AI是一个基于人工智能技术的在线服务,它能够快速、准确地从用户上传的图片中去除背景。这项技术特别适用于需要批量处理图片背景去除的电子商务、平面设计、个人照片编辑、房地产摄影以及数字艺术和视频制作等领域。背景去除AI的主要优点包括即时处理、高精度边缘检测、批量处理能力以及支持多种输出格式。它为用户提供了一个简单、高效且成本效益高的解决方案,以满足不同行业和个人对图像编辑的需求。

  • Lyrics Into Song AI:将您的歌词转换成完整的歌曲。

    Lyrics Into Song AI 是一款利用人工智能技术将用户输入的歌词转换成旋律、和声和编曲的在线音乐创作工具。它通过自然语言处理、神经网络架构和音乐生成算法,为创作者提供便捷的音乐创作体验。该产品支持多种音乐风格和语言,适合各种创作需求,无论是社交媒体内容创作、播客开场音乐、视频配乐还是个人活动音乐,都可以通过这个平台轻松实现。

  • CodeCV简历:免费的专业在线Markdown简历制作工具

    CodeCV简历是一个专业的在线简历制作工具,支持Markdown格式,为用户提供多种简历模板和AI辅助写简历功能,帮助用户快速生成个性化、专业的简历。该工具特别适合需要在线制作和导出简历的用户,无论是校招还是社招,都能满足需求。

  • 智语:探索无限智能,构建更完美的聚合之路。

    智语1号是一个以智能系统为基础的聊天平台,提供用户与AI进行互动交流的体验。它利用大模型技术,通过自然语言处理和机器学习,使得AI能够理解和回应用户的各种问题和需求。智语1号的背景是随着人工智能技术的发展,人们对于智能助手的需求日益增长,它旨在为用户提供一个高效、智能的交流环境。产品目前是免费试用,主要面向对智能聊天感兴趣的用户群体。

  • FB Group Extractor:一键抓取Facebook群组成员信息

    FB Group Extractor是一款基于AI技术的Facebook群组成员信息抓取工具,能够帮助用户从Facebook群组中提取、分析并有效利用有价值的信息。该工具支持多种数据提取,包括用户ID、用户名、加入状态、工作职位、位置等,对于市场营销、内容优化和用户研究具有重要意义。它通过Chrome插件的形式提供服务,支持跨平台使用,并且具备免费和付费两种使用方案,满足不同用户的需求。

  • Solidroad:AI驱动的训练和评估平台,提升员工培训效率。

    Solidroad是一个AI优先的训练和评估平台,它将公司的知识库转化为沉浸式培训项目,易于培训者管理,同时为员工提供更吸引人的学习体验。该平台通过个性化支持、指导和专业知识,帮助客户节省时间和资源,加快新员工的熟练速度,并提高客户满意度评分。

  • Docs by Hashnode:动态API文档和产品指南的内容引擎

    Docs by Hashnode是一个为开发者团队设计的API文档和产品指南内容引擎,它允许团队像编写代码一样快速、轻松地构建、定制和扩展他们的文档。它提供了全控制、自定义和Stripe级别的高质量文档,而无需繁重的工作。产品具有现代化的前端、一流的文档编辑器、快速的搜索和发现功能,以及强大的协作和用户反馈工具。

  • Bolna:全天候AI前台接待,接听所有来电

    Bolna是一款AI前台接待系统,旨在无缝地接管和扩展您的前台运营,确保不错过任何来电。它通过创建AI代理、连接知识库、语音实验室、预约安排和报告功能,提供了一个全面的解决方案。Bolna通过提供多种语言支持和集成CRM系统,帮助企业提升客户服务效率和质量。

  • ComfyUI-LumaAI-API:为ComfyUI提供Luma AI API的自定义节点。

    ComfyUI-LumaAI-API是一个为ComfyUI设计的插件,它允许用户直接在ComfyUI中使用Luma AI API。Luma AI API基于Dream Machine视频生成模型,由Luma开发。该插件通过提供多种节点,如文本到视频、图像到视频、视频预览等,极大地丰富了视频生成的可能性,为视频创作者和开发者提供了便捷的工具。

  • Notion-like AI Editor (Lexical):利用Liveblocks、Lexical和Vercel AI SDK构建的协作文本编辑器。

    Notion-like AI Editor是一个基于Liveblocks、Lexical和Vercel AI SDK的协作文本编辑器示例,它允许用户实时同步编辑文档,同时查看彼此的光标位置。该编辑器还集成了AI工具栏,用户可以通过查询AI来生成改进和新内容。

  • StoryMaker:文本到图像生成工具,创造连贯角色故事。

    StoryMaker是一个专注于文本到图像生成的AI模型,能够根据文本描述生成具有连贯性的角色和场景图像。它通过结合先进的图像生成技术和人脸编码技术,为用户提供了一个强大的工具,用于创作故事性强的视觉内容。该模型的主要优点包括高效的图像生成能力、对细节的精确控制以及对用户输入的高度响应。它在创意产业、广告和娱乐领域有着广泛的应用前景。

  • Runway API:使用,随时随地创造视频内容。

    Runway API是一个强大的视频模型平台,提供先进的生成视频模型,允许用户在安全、可靠的环境中嵌入Gen-3 Alpha Turbo到他们的产品中。它支持广泛的应用场景,包括创意广告、音乐视频、电影制作等,是全球顶尖创意人士的首选。

  • NotePlan AI Meeting Notes:自动化会议记录工具,提升会议效率。

    NotePlan AI Meeting Notes 是一款为Google Meet设计的AI驱动会议记录插件,它能够将会议内容自动转化为简洁、可操作的摘要,帮助用户捕捉关键决策、主题和洞见。该插件支持全词转录,用户无需在会议中分心记录,可以完全专注于讨论。它与NotePlan应用无缝集成,可以一键将会议摘要和记录同步至NotePlan,无论是个人还是团队协作,都能提升工作效率。

  • Diarly:安全、简单且美观的日记应用,开启自我发现之旅。

    Diarly是一款专注于个人日记记录的应用程序,它通过提供安全、用户友好且美观的界面,帮助用户记录和回顾个人生活。该应用允许用户通过多种视图如时间线、笔记和日历来轻松导航,同时支持个性化设置,如主题、字体和自定义模板。Diarly还提供了强大的加密和密码保护功能,确保用户隐私安全。此外,它还支持通过iCloud在不同设备间同步日记,让用户随时随地都能记录和查看自己的日记。

  • Stytch Fraud & Risk Prevention:行业领先的精准欺诈和风险预防解决方案

    Stytch Fraud & Risk Prevention 提供先进的设备指纹技术,超越了传统的CAPTCHA和WAF,能有效阻止机器人、欺诈和滥用行为。它通过高度独特的指纹技术,结合标准和专有信号,保护用户隐私的同时,确保了几乎不可能被绕过的准确性。该产品通过详细的仪表板报告,提供实时可见性,监控用户的安全姿态,并通过智能CAPTCHA技术,提高用户体验。此外,Stytch还提供了多种指纹类型和智能速率限制功能,以应对各种用例。

  • Meco:将您的新闻通讯从收件箱中解放出来

    Meco是一个新闻通讯聚合器,旨在帮助用户将新闻通讯从电子邮件收件箱中移出,以减少干扰并提高阅读效率。它通过提供智能过滤器、分组、AI音频摘要、个性化推荐等功能,使用户能够更有效地管理和阅读新闻通讯。Meco支持与Gmail和Outlook同步,提供个性化的新闻摘要,并且允许用户在任何设备上阅读,包括即将推出的Android版本。

  • Zivy:专为工程和产品领导设计的AI通信管理工具。

    Zivy是一款旨在帮助工程和产品领导管理通信混乱的AI工具。它通过自动优先排序和学习来优化消息,确保用户只关注需要立即处理的内容。Zivy通过集成Slack或Gmail等账户,使用OAuth2和官方API来保护用户密码和信息安全。它还承诺遵守SOC-2和ISO27001标准,确保数据安全。Zivy的设计理念是简化工作空间,让用户能够更专注于创造和生活,而不是被通信工具所困扰。

  • Brightband:利用AI技术预测天气和气候,助力人类适应极端天气

    Brightband是一个致力于通过先进的地球系统AI技术,使天气和气候变得可预测,以帮助人类适应日益极端的天气变化。该平台通过开源基准数据集、模型和指标,鼓励全球社区共同提升天气预测的技术水平。Brightband提供给学术界、政府和公司使用的工具,旨在改善与天气和气候相关的决策,从而长期造福人类和地球。

  • SiFive:引领RISC-V革命,提供高性能计算密度

    SiFive是RISC-V架构的领导者,提供高性能、高效率的计算解决方案,适用于汽车、AI、数据中心等应用。其产品以优越的性能和效率,以及全球社区的支持,推动了RISC-V技术的发展和应用。

  • SiFive Intelligence XM Series:高效能AI计算引擎,集成多种计算单元,提供高内存带宽。

    SiFive Intelligence XM系列是SiFive推出的高效能AI计算引擎,通过集成标量、向量和矩阵引擎,为计算密集型应用提供极高的性能功耗比。该系列继续SiFive的传统,提供高效的内存带宽,并通过开源SiFive Kernel Library来加速开发时间。

今日大家都在搜的词: