ChatGPT掀起了一场AI在大众圈的话题热潮,全民热聊中也对AI发展方向和未来发展趋势提出了很多问题,也有许多人想问以ChatGPT为代表的AIGC的兴起,对计算机视觉、AIoT的产业发展有何种启发。我们邀请了旷视研究院基础科研负责人张祥雨做客这次的对话,分享他的思考和观点。
ChatGPT在语言逻辑推理,高阶指代关系推理的能力很强
但是...
Q:你与ChatGPT对话了哪些内容,你的使用感受如何?
张祥雨:自ChatGPT发布以来,包括这次爆火之前,我基本上每天都在使用。我主要关注的是它的逻辑推理能力,而不仅仅是它拥有哪些知识。我认为,逻辑推理能力对判断一个模型是不是达到了类似人的思维水平更重要。让我特别惊讶的一点是,ChatGPT在语言逻辑推理,尤其是在多轮对话,以及高阶指代关系推理的能力很强。当然它也有很多问题,主要是在常识建模、尤其是数学逻辑能力比较欠缺,对数字的敏感性(比如大小关系等)不强。总体来说,它的能力还是大大超出了我的预期。
Q:你如何看待目前全民关注ChatGPT的火爆现象呢?有人说它带动了AI新一轮的发展浪潮,你认同吗?
张祥雨:非常认同。其实带动AI新一轮浪潮的,不止是ChatGPT,它只是大模型技术的一种应用。这两年学术界在AI大模型,尤其是自然语言大模型方面取得了跨越式的发展。这里面的核心逻辑是什么呢?其实和大模型背后我们称之为scaling law(规模化效应)的性质有关。简单来说,就是在AI模型里,我们可以通过不断地增加数据、增加模型大小来实现性能的持续提升。
其实,Scaling law这件事并不新,近十年来深度学习演进的历史大体上都体现了这条定律。但是在此之前很多人都认为scaling law快到头了,为什么呢?因为随着模型的增大和数据量的增多,模型的收益是逐渐递减的,存在一个“边际效应递减”的效应:即越增加数据,收益就越来越不明显,性价比就越低。但这两年,大家在NLP大模型上发现了一个非同寻常的现象——当这个模型的参数量、训练数据量到达千亿量级时,模型的高档思维能力突然出现了跨越式的增长,这个增长是过去从来没有发现过的。可能过去增加一点数据,模型性能就提升一点。但现在大概在千亿这个参数关口,大家发现数据和模型量稍微再增加一点,模型突然出现了原来不曾有的推理能力,还激发了一些之前我们认为人类才有的能力,比如思维链能力。当然它背后还有很多技术,像代码预训练等,共同推动了这种跨越式的发展。
所以我觉得这件事是非常了不起的,它不仅仅可以带来很多产业上的用途,它的影响力甚至可能已经超过了AI这个领域。对人们如何理解思维,揭示人类智能产生的起源也有非常大的启发价值。
Q:你如何看待ChatGPT的应用趋势呢?它会对哪些行业产生影响?
张祥雨:应用这块我觉得大家见仁见智。以现在ChatGPT它所代表的大模型的发展水平,大家最看好的、较早落地的应用可能是智能搜索引擎,此外像各种文字编辑工作,以及各种垂直领域都有落地的潜力。当然在落地过程中可能也会遇到一些问题,比如说如何保证答案的准确程度,如何保证生成的内容是正确的,以及在部署推理的时候要怎么把这个大模型给用起来,真正做到有效并且降低运行成本,这都是落地时需要讨论的。但是我认为,目前以ChatGPT为代表的AIGC,包括它背后的大模型的意义,不仅仅是在落地本身,在我看来它的科研价值可能更大。
Q:可以展开讲讲ChatGPT的科研价值吗?
张祥雨:科研价值主要体现在研究人类智能如何产生。其实从技术角度来看,AI大模型的设计和训练过程并没有专门针对智能做特殊的设计。它的逻辑推理、思维链、reasoning的能力,是研究人员通过大幅增加参数量、增加训练数据量的过程中突然激发出来的,这个现象是非同寻常的。其实这和生物的进化包括人类的进化史也是非常像的,从底等生物、高等生物再到人类,进化过程中的思维能力也是突然产生的。
这种突然产生的智能背后不是靠专门的设计,是模型自然而然所形成的。关于这一点到底要如何理解?现在“有智能”的大模型相对于原来“没有智能”的那些模型到底产生了哪些质变?这些都是非常前沿且有趣的课题,值得我们探索。
我们的选择是专注在“AI in Physical”,从物理世界中来,到物理世界中去。。
Q:像这类LLM模型(大型语言模型)的发展,会对计算机视觉的发展有何启发?
张祥雨:其实LLM就是我们说的大型语言模型,它之所以这么成功尤其是这两年又得到大量的关注,跟它在scale up的过程中发现了一些异乎寻常的现象有很大关系:LLM模型在scale up的过程中,大家发现它突然产生了逻辑推理能力以及一定的思维能力等等。所以我觉得对视觉的启发就是,我们在视觉领域是否也能得到一个类似“异乎寻常”的现象。当然现在视觉模型从大小上来说还是跟语言模型差很远,继续走scale up这条路到底是不是对的,现在还不好说。但是既然scale up这条路在语言上已经取得了这么大的成就,我们觉得还是非常有必要在视觉上也尝试一下是不是能走通。
除此之外,视觉模型如果要对实际落地产生影响,它还有很多比语言模型更加麻烦的地方,因为我们知道语言是人类创造的,但是视觉是大自然中本来就有的,并且其中也会融入人的理解,那么相对而言视觉在建模方面会比语言更难一些,不仅要处理好数字世界中的关系,还要处理跟真实物理世界进行交互的能力。
具体到大模型这个领域,我们知道大模型主要成功依赖的是数据和模型的不断的增长,但是在计算机视觉,一旦涉及到物理世界我们会发现,无论是数据的收集还是数据的计算处理,以及与外界的感知交互,scale up起来难度更大一些。
首先是数据的获取,我们知道语言模型可以从网络上收集大量的人类互相问答还有各种文章的数据。图像当然也可以,收集大量的网络图像,但为了实现真正的落地应用,比如各种工业场景,像自动驾驶、机器人等,这不是仅靠收集网络图像就能解决的,还必须得有特定场景的专门数据;如何获取并且有效地利用这些数据,本身就是一个比较困难的问题。
其次是算法,像这一波大模型的风潮很大程度上可以归结为自监督算法的成功。所谓自监督算法意思是监督信号不再需要人类一个一个进行标注,可以从数据自身的信息中进行自我监督、自我训练,这样才可以scale up到非常大。对语言来说,我们有好几种自监督手段,比如说可以不断地通过前面的词、前面的句子来预测下一个字是什么,就像大家写文章一样,这种我们称之为Autoregressive(自回归)模型。视觉里面也有类似的做法,比如说像最近非常火的MIM(掩码图像建模)算法,我们可以把图像捂住一块,预测被捂住的一块是什么。但是我们也发现目前MIM这套框架以及其他自监督框架都有一些问题,当它扩展到更大的数据集时,它的表现并不如在语言模型中见到的这么明显,事实上当我们不断地增加数据达到一定规模以后,它的性能提升就停滞了,于是我们就不得不想一些新的办法。这块其实目前还没有得到特别好的解决,更多的还是依赖于人类标注的数据。
最后一块是关于跟外界的交互。在AI in physical world应用中,当模型依据视觉信号做了一个动作或是产生了一个策略,我们要判断它好不好,很多时候是要落实到物理世界中去,比如需要控制自动驾驶车辆、机械臂、仓储机器人等等,跟物理世界产生一些交互,交互的结果将会影响我们下一轮决策。其实说起和现实世界的交互,目前的自然语言大模型已经有所涉及了,例如OpenAI他们做ChatGPT之前还做了一个WebGPT的项目,就是与互联网产生交互。比如阅读一段文本,它为了理解这段文本就需要操作搜索引擎去检索一些信息来支持它做下一步的输出,它需要跟互联网世界产生交互,这个交互体现为一个搜索的动作。当然,这种动作是发生在数字世界的,相对而言是比较容易的。但是做视觉的经常要跟物理世界进行交互,操作一个机械臂或是操作一个自动驾驶的机器人,从安全性和效率上考虑,这种交互闭环的形成肯定是不如在数字世界这么方便、有效且安全的,里面有很多坑需要我们去填。
Q:旷视会怎么去做这个布局呢?
张祥雨:我认为旷视这些布局还是要扎根具体的公司主营业务,包括几大AIoT的场景,从每一个场景出发,我们得先把“从物理世界中来,再到物理世界中去”的这条闭环跑通。只有形成了数据闭环、反馈闭环,模型得到监督信号才会越来越多,我们才有条件把这个模型越做越大,我认为这是最重要的一点。所以我们说“大”和“统一”的趋势是不可阻挡的,是我们现在解决AI in physical world的主要思路,但是要形成更大的规模化就必须要打通全链路,这无论是在商业布局还是在科研方面都必须要坚持的一点,就是要创造条件,想办法为模型做大提供契机。
Q:这些会对AIoT的设备提出怎样新的要求?
张祥雨:对AIoT设备的要求更多还是体现在算法和硬件要进行co-design上。因为每一种硬件、各种传感器和各种执行器一定是跟算法匹配的,不同的算法会对应不同sensor性能要求和不同的使用方式,这也是我们做AIoT或者是AI in physical world所必须要考虑的一点。
Q:最近新闻报道也比较多,大家对于这项技术的高度关注,试用反馈、解读,是不是给了你一些新的启发?
张祥雨:全民开始关注AI是一个非常好的现象,说明我们这个领域切切实实能够产生社会影响。其实,每一波热点不管能不能持续下去,在某种程度上都促进了社会的进步,会诞生一些新的产品,启发一些新的科研方向等等。
Q:刚才你也提到了ChatGPT的爆火与做科研坚持长期主义有关。之前你也分享过基础科研应该遵循的原则是原创、实用、本质,你现在还是这种想法吗?
张祥雨:肯定是。因为你只是follow,不追求原创会陷入一个很大的陷阱,就是你去follow是可以的,但因为没有亲身去体验过这种创新过程,回避了过程中走过的弯路,很可能造成对这个技术边界判断不清晰,即使以后确实复现完成了,但你对这项技术可以做成什么事是缺少判断的,钱、资源都投进去了,结果发现解决不了问题,而别人原创团队已经做下一个了。这种状态肯定是出不了的成果的,无论是科研还是业务,这肯定是不行的。
Q:能否简单总结一下你对AI发展的看法。
张祥雨:AI应用的路线主要分为两条,一条叫AI in Digital World,一条叫AI in Physical World,即AI在数字世界和物理世界中的应用。像ChatGPT主要体现的还是以AIGC为代表的技术在AI in Digital World的应用。旷视更多的还是关注AI in Physical World。AI in Digital World的东西当然可以应用于AI in Physical World,但是物理世界中的AI包含了更多的问题,包括如何从物理世界中得到信息,如何对这个信息进行处理,然后如何再把它应用到物理世界,最后如何再从物理世界中得到反馈。所以说,它是一个更难更有挑战性的问题。旷视将会沿着AI in Physical World这条路线继续探索。
(推广)