首页 > 传媒 > 关键词  > 正文

因为看见,所以相信——依图科技对未来AI之浅析

2024-07-10 16:16 · 稿源: 站长之家用户

最近,大量关于人工智能的研究报告,投资人、创业者、学者热议AI的趋势和对社会各行业的影响,不乏对AI技术和产业发展的误解,很容易有误导性。宏观上,议题大体分为三个方面:AI是多大的事?谁是真正的AI player?AI的场景在哪里?

从科学研究者和创业者的双视角谈谈我的主要观点:AI的边界,只有领军人物才可能准确把握和拓展;先进企业,因为远见造就势能;AI的未来,很难相比,没有历史可以借鉴,也没有保障可以预测。

“S”曲线看AI格局

我对AI发展历史和预测,用上图的”S”形曲线建模(Sigmoid函数,恰好也是用来刻画神经网络中神经元的activation function)。横轴表示时间,纵轴表示机器智能水平。曲线上的点表示某个时间点的全球比较高智能水平。2013年开始是新AI时代(深度学习),2013年前的机器智能发展水平相较于近5年的发展基本可以忽略不计。红线代表悲观派(AI退潮、AI泡沫等),2017年之后很快出现发展停顿;蓝线代表乐观派,2017年之后还有快速发展。值得强调的是,蓝红两条曲线对AI历史有相同认识,但市场上很多论调或研究报告看到的是另一条曲线,很大概率调研看到的AI水平离比较高水平有很大差距。分析AI格局的不同立场,可以通过解读S曲线的三个方面:

1、AI过去的发展以及AI未来发展程度和速率的预测

2、AI发展水平和商业场景的关系

3、各个player的所在位置和差距

具体来说,我们先从AI过去5年的发展情况谈起,以人脸识别作为例子,把人脸从N个人中找到的概率在95%,纵轴就是可识别的规模(N的大小)。

技术不是趋同,而是会放大差距、解锁场景

2017年人脸识别比较高水平可识别规模在20亿人,大概比2016年可识别千万提高两百倍,比2015年提高了数万倍。在2017年全球最保障的人脸识别测试中(NIST),我们比第二名Vocord团队,在千万比对测试上领先2%(Vocord在另一测试集比腾讯优图高10%),这个就是大家常说的技术水平趋同,高一两个百分点没有意义(引申出难兑现成竞争价值)。这个误区需要从两个方面解读:

首先方面,算法在亿级、十亿级比对的领先会快速放大到5%,20%。这是一般的算法性能曲线的规律。除了可识别规模上的重大差异,还体现在难(hard)的数据上的识别率差异。从算法经验来说,黑人、女性、小孩、大年龄跨度、遮挡等是较难识别的群体和类别。在这些子类上,不同算法之间的性能差异会更大。

超大规模下的评测本身就是一个不简单的学术命题,还需要大量的数据支撑,真正能观测到20亿数据下性能的人少之又少,例如美国很难建立20亿级的测试集。这不是访谈一些人脸识别研究从业者就能获得,这是误区的首先个来源。

第二方面,算法提高,扩大可识别规模,就会解锁更多商业应用场景。百万、千万识别规模对应的是身份认证场景,远程认证、手机解锁都属于此类。“技术无差异”的论调在这个场景下倒是可以成立。但在对亿级和十亿比对有刚性需求的场景下,几乎就是行与不行的问题。“非关键性应用”的论断误导性极强。

假定每路人流为万,要在万路视频中,搜索性能相当于要求算法百亿、千亿规模上的可识别率。这比其他场景的性能要求再提高千倍。以不同算法为基础的产品端体验差异就被同比例放大。

总结来说,99%识别率的算法和99.99%的算法,区别在于可解锁的应用场景。这些新的场景解锁,是较早锋的算法团队和垂直领域的开拓者共同努力,也不是访谈一般的相关从业者就能感知变革的最前沿,这是误区的另一个来源。

技术水平的三个层次VIE:Vision(远见),Insight(洞见),Execution(执行)

技术实力该如何评估比较呢?最常见的是测试比赛的较高排名、实际案例、招投标PK成绩、论文等。这些或许能区分是不是前10名的AI团队,但很难区分较好的团队。我对技术的三层解构:Vision,远见,或战略格局、技术趋势判断;Insight,洞见,算法本质和客观世界分布规律的理解;Execution,执行,算法实现、数据获取、工程计算平台等。具体来说:

最基础的Execution就是算法做到什么水平,特别是大体框架已知后,能快速实现,包括基础算法、场景数据、计算实验平台、产品应用等。比如,AlphaGo出来后,多快能复现;语音识别多快能追上全球较好的结果。优质的Execution,不是开源的算法平台可以弥补。特定领域的专家能帮助团队快速提高对应领域Execution的水平。这个层面,中国团队应该是世界知名的。Google如果是世界首先的话,不论是下棋、人脸识别、语音识别等,中国的水平应该不会比 Facebook、Microsoft、Apple、Amazon等差,甚至某些方面稍强些。大部人比较技术,基本就在这个层次。但更重要的、威力更大的是上面的两个层次。

再往上一层是Insight,考察对技术的深刻认知。包括算法模型的数学解释、客观世界分布规律的独到见解。Insight指导如何使用数据、计算力(就是指导如何使用算法甚至创新算法)。这层决定能不能比Google做得更好,或者能保持同一发展节奏。假定拥有深度学习算法框架、海量数据在同样水平,但是大家对算法性能调教还有巨大差距。以人脸识别为例,我们使用了2亿张人脸图片(几十亿张图片的子集)训练,有效模型参数达到10亿量级,利用对人脸这个对象的属性先验的合理假设,包括光照、年龄、种族、运动模糊、成像解析度等,模型定制、数据如何组合、计算如何加速在性能调优和模型学习效率上(就是上面提到的Execution)都有重大差异。这就是为什么拥有算法、算力、数据条件的互联网巨头也不见得能在单项AI任务上能做到全球前三。

Vision:预测发展趋势、定义未来方向,想象对生活、生产的影响。这除了需要对技术的深刻理解,还需要对技术的创新能力,以及技术商业价值的想象力、创造力。技术的远见,回答AI的场景在哪以及多快到来。

强的Execution,Insight肯定不错,但可能毫无Vision;比较强的Vision,Insight肯定知名,但Execution可能很差。VIE都很强的团队全球极其稀缺。用深度学习领域比较强的两位大师Hinton和LeCun谈一下我的感受。在2010年前,学术界不少人已经在谈大数据对机器学习的重要性,Hinton团队2012年在LeCun发明的算法基础上,用了百万的训练数据,在ImageNet上取得的突破性进展;同一时期,LeCun团队只用了不到十万的数据。但是在Hinton公布ImageNet结果的头两个月,LeCun团队没法重现Hinton用自己算法的实验结果。在Hinton公布算法实现和技巧后,LeCun团队的结果就轻松超过了Hinton团队的水平。

两位大师都拥有超知名的Vision,在深度学习方向上坚持三十年。但是他们Vision的差别以及以此带来的信念差别使得Insight的差别(是否追求更深刻见解)在当时可能是巨大的,对深度学习算法发挥的突破条件包括训练数据规模、模型正则化实现、activation function选取、GPU计算等的理解还有显著差异。这些在当时,原理还不清楚时,可能完全是凭着Hinton(包括那一期超强的博士生)的直觉。这种Insight的差距,使得LeCun团队已知所用算法框架和目标性能但未知关键实现时,也不能重现结果。但之后,LeCun团队拥有更好的Execution(大规模系统性调优),能在短时间内算法性能超过。这种最牛高手间信念的微妙差异,到底来源于什么,值得深思。

为什么Vision很重要?就像雷达,对别人来说是盲区,Vision让你看见,看见所以相信,相信所以平静。不仅以此获得战略优势,还有定力,排除诱惑和干扰。

Vision如何辨别呢?非常难,甚至几乎不可能,只能由同样有Vision的人欣赏。就像taste难以打分一样,只能由同样有taste的人欣赏。Vision带你看到的,就是99%的专家同行都看不到、不相信的。所以,伟大往往和误解相伴。LeCun在深度学习被实际测试数据验证前,也很难被美国主流学术圈认可,甚至发表优质会议都不是简单的事,可如今,几乎所有的论文都要贴上深度学习的标签。

但是判断过滤没有Vision的团队,倒是有迹可循。一般来说,无论学术还是创业,伟大的突破,都需要多年前后一致的投入和深耕。隔年换领域或者什么模式都在做的(垂直、平台等),归类为没有Vision应该没什么问题。

有了VIE的拆解,我认为,AI新时代的壁垒只有人,特出质的人。领军人物对AI技术和商业边界的未来分布判断无法替代,决定AI发展基本要素(算法、算力、数据和场景)的所需程度和权重。拥有优质Execution和Insight的团队,最知道对算法有效的数据在哪、如何标注使用。拥有优质Insight和Vision的团队,最早知道技术的突破带来较具商业价值的场景在哪以及何时到来。

AI未来:没有历史可以借鉴,也没有保障能够预测

谈了AI发展,技术如何解构,谈谈AI的未来。基于深度学习的AI新时代,大大不同于30年历史上的AI,这是被各种应用、在实际场景、大规模数据验证过性能的技术,而不只是理论或概念。尽管过去5年的发展,对得起人们的期待,今天,还有不少人担心新AI像过去一样很快会退潮。但我们认为,AI新时代只是开始。我从新AI的三个特性简要阐述:

1、AI是全新的维度。这是最重要的,决定AI到底是多大的事。

AI技术如何创新发展,如何变革商业,没有历史可以借鉴,也没有保障能准确判断。AI不仅仅是一个技术,AI突破还能突破所有技术包括人机交互、搜索、机器人、芯片计算、医学、制药等科学领域的几乎所有学科。

2、AI的发展速度快、跳跃性强

从S曲线中,可以看到过去5年,AI的发展及其迅猛,单门类(人脸识别)算法有了万倍的增长。但我对未来更加憧憬,即S曲线中2018年之后的曲线有多陡。AI发展带来的多维度技术和各场景深度结合、叠加会带来更有冲击力的体验。从多技术维度来说,从视觉,到听觉、语义理解、运动控制会在之后几年都会快速突破;和芯片结合,端智能渗透到与用户的最后30公分的交互体验,从Internet Of Things向Internet Of Intelligence跨越,让智能无处不在。

3、AI领先一步,会带来巨大势能

在S曲线中,处在不同位置的团队,优势不只是横轴时间的差距,而是技术领先带来的累积效应(曲线积分)以及更多元(多条AI技术曲线)AI技术的叠加,这使得AI能有跨行业的摧毁性。不仅仅决定某个行业,首先名和第二名的差距或位置关系,还能使得AI领先的行业的掌舵者撬动AI意识落后的行业。

AI未来,很难相比;因为看见,所以相信。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 独家战略合作!喜临门强脑科技开启“AI陪伴”智能睡眠新未来

    喜临门与强脑科技达成战略合作,共同发布首款脑电感应AI床垫"宝褓·BrainCo"。该产品融合非侵入式脑机接口技术,通过精准监测脑电波实现睡眠状态评估,提供个性化助眠方案。双方将整合家居与神经科学优势,打造"床适应人"的主动睡眠优化系统,推动行业从智能向智慧跨越。此次合作标志着睡眠产业进入AI陪伴新时代,致力于为全球15亿睡眠障碍者提供非药�

  • 喜临门为何选择强脑科技?AI睡眠科技互补下的战略共鸣

    全球首款脑机接口AI床垫"宝蕖·BrainCo"正式亮相,标志着智能家居领域迎来革命性突破。该产品通过非侵入式脑机接口技术实时监测脑电信号,动态调整床垫参数,实现从"智能助眠"到"智慧陪伴"的跨越。喜临门与强脑科技的战略合作,将推动睡眠科技从硬件舒适向健康管理升级,响应"健康中国2030"战略。双方将共同研发精准睡眠监测技术,填补行业空白,并构建覆盖检测、干预到健康管理的全链条睡眠解决方案。

  • 点亮智能未来——专访悦观科技技术研发总监张丽娟

    文章介绍了智能照明系统在智慧城市建设中的发展与应用。张丽娟作为乐观科技技术研发总监,带领团队开发出融合AI、数据感知和节能管理的智能照明系统,已在多个城市和校园项目中成功应用。该系统通过多维感知、自适应算法和低功耗通信协议,实现动态调节照明强度和色温,提升能效同时改善用户体验。张丽娟强调"以人为核心"的设计理念,认为未来照明系统将成为城市数据网络的一部分,探索在安防协同、室内定位等更广泛场景中的应用价值。其团队产品已形成系列化布局,并推动行业标准化进程。

  • 墨刀AI生成原型图,产品设计快人一步

    国内原型设计平台墨刀发布"AI生成原型图2.0"功能,30秒即可生成可编辑原型图,大幅提升产品设计效率。该功能通过AI技术解决传统原型设计周期长、效率低、修改繁琐等痛点,支持文字描述或图片上传自动生成高保真原型图,并可二次编辑优化。这一创新不仅标志着墨刀AI能力的全面升级,更代表产品设计方式的一次革新,显著加快产品迭代速度。未来,AI原型设计有望成为行业标配,助力企业更快响应市场需求,提升产品竞争力。

  • 绿源7·3品牌日: 以初心致未来,科技创造美好轻出行

    绿源电动车28周年品牌日提出"全场景轻出行解决方案",从行业拓荒者转型为出行生态引领者。28年来,绿源坚持"信任"核心价值观,以"硬件+软件+服务"构建一体化出行方案,累计获1200多项专利。品牌通过液冷电机、数字化电池等技术突破,实现超百公里续航;建立13000家智慧门店网络,打造"3公里服务圈";推出LYVA品牌G01产品满足户外骑行需求。绿源倡导轻量生活理念,以科技创新推动行业高质量发展,致力于让出行成为生活美好延伸。未来将持续以用户场景为核心,提供更便捷、绿色、智慧的出行体验。

  • 国内有哪些AI资讯网站?可灵AI上线可图2.1等热点新闻哪里看最及时?

    本文介绍了国内主要AI资讯平台,帮助用户获取及时全面的AI信息。重点推荐了机器之心、AI科技评论、新智元等综合性平台,以及CSDN、InfoQ等技术导向网站,特别强调AIbase.cn的时效性优势,该平台能第一时间发布如可灵AI可图2.1模型免费开放等重要动态。文章指出,选择资讯平台需结合时效性与内容深度,建议用户根据自身需求建立信息筛选体系,通过订阅日报、设置关键词提醒等方式构建个人AI资讯生态系统,其中AIbase.cn因其更新快、覆盖全的特点值得重点关注。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 可灵AI推出可图2.1模型 多维能力跃升、会员限时7天免费

    可灵AI于7月10日上线可图2.1模型,图片生成能力全面升级:1)指令遵循能力显著提升,可精准捕捉复杂提示细节;2)新增180多种风格响应,支持特殊材质、数字艺术等创作需求;3)人像美感大幅优化,肌肤纹理与光影效果更自然;4)增强电影质感生成,能呈现大片级层次氛围;5)文字生成效果提升,支持中英文营销海报等设计。即日起面向会员免费开放7天,实测显示该模型在复杂场景还原和细节表现上达到新高度,累计已生成超3亿张图片。

  • AI 浪潮下, 潮际好麦如何重塑电商出图新格局

    电商行业正经历AI技术带来的深刻变革。潮麦等AI工具通过一键生成虚拟模特、智能换背景、AI试衣等功能,大幅降低拍摄成本,提升出图效率。其AI模特技术解决了真人模特的版权困扰,试衣功能仅需上传服装平铺图即可生成超真实效果图,换背景功能支持快速适配不同营销场景。此外,AI智能抠图、换色等功能让商家每小时可处理上百张图片,效率提升数倍。这些AI解决方案�

  • 文生图大模型有哪些?探索AI绘画的核心引擎与选择利器

    本文探讨了当前主流的AI文生图技术及其应用场景。国际阵营中,OpenAI的DALL·E3擅长复杂语义理解,MidJourney以艺术风格见长,Stable Diffusion则以开源生态支持深度定制。中国力量方面,百度文心一格在中文语义和国风创作表现突出,阿里通义万相侧重商业化应用,昆仑万维天工支持长文本生成连贯图像。垂直领域工具如Adobe Firefly深度集成设计流程,Runway ML革新视频创作。文章建议通过聚合平台高效对比模型特性,并指出下一代技术将突破分辨率限制,实现跨模态生成。从精准语义到无限可能,AI文生图正在重塑视觉创作边界。