对话MEGVII旷视科技研究院张祥雨-ChatGPT的科研价值可能更大

2024-07-30 11:46 · 稿源：站长之家用户

ChatGPT掀起了一场AI在大众圈的话题热潮，全民热聊中也对AI发展方向和未来发展趋势提出了很多问题，也有许多人想问以ChatGPT为代表的AIGC的兴起，对计算机视觉、AIoT的产业发展有何种启发。我们邀请了旷视研究院基础科研负责人张祥雨做客这次的对话，分享他的思考和观点。

ChatGPT在语言逻辑推理，高阶指代关系推理的能力很强

但是...

Q:你与ChatGPT对话了哪些内容，你的使用感受如何?

张祥雨:自ChatGPT发布以来，包括这次爆火之前，我基本上每天都在使用。我主要关注的是它的逻辑推理能力，而不仅仅是它拥有哪些知识。我认为，逻辑推理能力对判断一个模型是不是达到了类似人的思维水平更重要。让我特别惊讶的一点是，ChatGPT在语言逻辑推理，尤其是在多轮对话，以及高阶指代关系推理的能力很强。当然它也有很多问题，主要是在常识建模、尤其是数学逻辑能力比较欠缺，对数字的敏感性（比如大小关系等）不强。总体来说，它的能力还是大大超出了我的预期。

Q:你如何看待目前全民关注ChatGPT的火爆现象呢?有人说它带动了AI新一轮的发展浪潮，你认同吗?

张祥雨:非常认同。其实带动AI新一轮浪潮的，不止是ChatGPT，它只是大模型技术的一种应用。这两年学术界在AI大模型，尤其是自然语言大模型方面取得了跨越式的发展。这里面的核心逻辑是什么呢?其实和大模型背后我们称之为scaling law（规模化效应）的性质有关。简单来说，就是在AI模型里，我们可以通过不断地增加数据、增加模型大小来实现性能的持续提升。

其实，Scaling law这件事并不新，近十年来深度学习演进的历史大体上都体现了这条定律。但是在此之前很多人都认为scaling law快到头了，为什么呢?因为随着模型的增大和数据量的增多，模型的收益是逐渐递减的，存在一个“边际效应递减”的效应:即越增加数据，收益就越来越不明显，性价比就越低。但这两年，大家在NLP大模型上发现了一个非同寻常的现象——当这个模型的参数量、训练数据量到达千亿量级时，模型的高档思维能力突然出现了跨越式的增长，这个增长是过去从来没有发现过的。可能过去增加一点数据，模型性能就提升一点。但现在大概在千亿这个参数关口，大家发现数据和模型量稍微再增加一点，模型突然出现了原来不曾有的推理能力，还激发了一些之前我们认为人类才有的能力，比如思维链能力。当然它背后还有很多技术，像代码预训练等，共同推动了这种跨越式的发展。

所以我觉得这件事是非常了不起的，它不仅仅可以带来很多产业上的用途，它的影响力甚至可能已经超过了AI这个领域。对人们如何理解思维，揭示人类智能产生的起源也有非常大的启发价值。

Q:你如何看待ChatGPT的应用趋势呢?它会对哪些行业产生影响?

张祥雨:应用这块我觉得大家见仁见智。以现在ChatGPT它所代表的大模型的发展水平，大家最看好的、较早落地的应用可能是智能搜索引擎，此外像各种文字编辑工作，以及各种垂直领域都有落地的潜力。当然在落地过程中可能也会遇到一些问题，比如说如何保证答案的准确程度，如何保证生成的内容是正确的，以及在部署推理的时候要怎么把这个大模型给用起来，真正做到有效并且降低运行成本，这都是落地时需要讨论的。但是我认为，目前以ChatGPT为代表的AIGC，包括它背后的大模型的意义，不仅仅是在落地本身，在我看来它的科研价值可能更大。

Q:可以展开讲讲ChatGPT的科研价值吗?

张祥雨:科研价值主要体现在研究人类智能如何产生。其实从技术角度来看，AI大模型的设计和训练过程并没有专门针对智能做特殊的设计。它的逻辑推理、思维链、reasoning的能力，是研究人员通过大幅增加参数量、增加训练数据量的过程中突然激发出来的，这个现象是非同寻常的。其实这和生物的进化包括人类的进化史也是非常像的，从底等生物、高等生物再到人类，进化过程中的思维能力也是突然产生的。

这种突然产生的智能背后不是靠专门的设计，是模型自然而然所形成的。关于这一点到底要如何理解?现在“有智能”的大模型相对于原来“没有智能”的那些模型到底产生了哪些质变?这些都是非常前沿且有趣的课题，值得我们探索。

我们的选择是专注在“AI in Physical”，从物理世界中来，到物理世界中去。。

Q:像这类LLM模型（大型语言模型）的发展，会对计算机视觉的发展有何启发?

张祥雨:其实LLM就是我们说的大型语言模型，它之所以这么成功尤其是这两年又得到大量的关注，跟它在scale up的过程中发现了一些异乎寻常的现象有很大关系:LLM模型在scale up的过程中，大家发现它突然产生了逻辑推理能力以及一定的思维能力等等。所以我觉得对视觉的启发就是，我们在视觉领域是否也能得到一个类似“异乎寻常”的现象。当然现在视觉模型从大小上来说还是跟语言模型差很远，继续走scale up这条路到底是不是对的，现在还不好说。但是既然scale up这条路在语言上已经取得了这么大的成就，我们觉得还是非常有必要在视觉上也尝试一下是不是能走通。

除此之外，视觉模型如果要对实际落地产生影响，它还有很多比语言模型更加麻烦的地方，因为我们知道语言是人类创造的，但是视觉是大自然中本来就有的，并且其中也会融入人的理解，那么相对而言视觉在建模方面会比语言更难一些，不仅要处理好数字世界中的关系，还要处理跟真实物理世界进行交互的能力。

具体到大模型这个领域，我们知道大模型主要成功依赖的是数据和模型的不断的增长，但是在计算机视觉，一旦涉及到物理世界我们会发现，无论是数据的收集还是数据的计算处理，以及与外界的感知交互，scale up起来难度更大一些。

首先是数据的获取，我们知道语言模型可以从网络上收集大量的人类互相问答还有各种文章的数据。图像当然也可以，收集大量的网络图像，但为了实现真正的落地应用，比如各种工业场景，像自动驾驶、机器人等，这不是仅靠收集网络图像就能解决的，还必须得有特定场景的专门数据;如何获取并且有效地利用这些数据，本身就是一个比较困难的问题。

其次是算法，像这一波大模型的风潮很大程度上可以归结为自监督算法的成功。所谓自监督算法意思是监督信号不再需要人类一个一个进行标注，可以从数据自身的信息中进行自我监督、自我训练，这样才可以scale up到非常大。对语言来说，我们有好几种自监督手段，比如说可以不断地通过前面的词、前面的句子来预测下一个字是什么，就像大家写文章一样，这种我们称之为Autoregressive（自回归）模型。视觉里面也有类似的做法，比如说像最近非常火的MIM(掩码图像建模)算法，我们可以把图像捂住一块，预测被捂住的一块是什么。但是我们也发现目前MIM这套框架以及其他自监督框架都有一些问题，当它扩展到更大的数据集时，它的表现并不如在语言模型中见到的这么明显，事实上当我们不断地增加数据达到一定规模以后，它的性能提升就停滞了，于是我们就不得不想一些新的办法。这块其实目前还没有得到特别好的解决，更多的还是依赖于人类标注的数据。

最后一块是关于跟外界的交互。在AI in physical world应用中，当模型依据视觉信号做了一个动作或是产生了一个策略，我们要判断它好不好，很多时候是要落实到物理世界中去，比如需要控制自动驾驶车辆、机械臂、仓储机器人等等，跟物理世界产生一些交互，交互的结果将会影响我们下一轮决策。其实说起和现实世界的交互，目前的自然语言大模型已经有所涉及了，例如OpenAI他们做ChatGPT之前还做了一个WebGPT的项目，就是与互联网产生交互。比如阅读一段文本，它为了理解这段文本就需要操作搜索引擎去检索一些信息来支持它做下一步的输出，它需要跟互联网世界产生交互，这个交互体现为一个搜索的动作。当然，这种动作是发生在数字世界的，相对而言是比较容易的。但是做视觉的经常要跟物理世界进行交互，操作一个机械臂或是操作一个自动驾驶的机器人，从安全性和效率上考虑，这种交互闭环的形成肯定是不如在数字世界这么方便、有效且安全的，里面有很多坑需要我们去填。

Q:旷视会怎么去做这个布局呢?

张祥雨:我认为旷视这些布局还是要扎根具体的公司主营业务，包括几大AIoT的场景，从每一个场景出发，我们得先把“从物理世界中来，再到物理世界中去”的这条闭环跑通。只有形成了数据闭环、反馈闭环，模型得到监督信号才会越来越多，我们才有条件把这个模型越做越大，我认为这是最重要的一点。所以我们说“大”和“统一”的趋势是不可阻挡的，是我们现在解决AI in physical world的主要思路，但是要形成更大的规模化就必须要打通全链路，这无论是在商业布局还是在科研方面都必须要坚持的一点，就是要创造条件，想办法为模型做大提供契机。

Q:这些会对AIoT的设备提出怎样新的要求?

张祥雨:对AIoT设备的要求更多还是体现在算法和硬件要进行co-design上。因为每一种硬件、各种传感器和各种执行器一定是跟算法匹配的，不同的算法会对应不同sensor性能要求和不同的使用方式，这也是我们做AIoT或者是AI in physical world所必须要考虑的一点。

Q:最近新闻报道也比较多，大家对于这项技术的高度关注，试用反馈、解读，是不是给了你一些新的启发?

张祥雨:全民开始关注AI是一个非常好的现象，说明我们这个领域切切实实能够产生社会影响。其实，每一波热点不管能不能持续下去，在某种程度上都促进了社会的进步，会诞生一些新的产品，启发一些新的科研方向等等。

Q:刚才你也提到了ChatGPT的爆火与做科研坚持长期主义有关。之前你也分享过基础科研应该遵循的原则是原创、实用、本质，你现在还是这种想法吗?

张祥雨:肯定是。因为你只是follow，不追求原创会陷入一个很大的陷阱，就是你去follow是可以的，但因为没有亲身去体验过这种创新过程，回避了过程中走过的弯路，很可能造成对这个技术边界判断不清晰，即使以后确实复现完成了，但你对这项技术可以做成什么事是缺少判断的，钱、资源都投进去了，结果发现解决不了问题，而别人原创团队已经做下一个了。这种状态肯定是出不了的成果的，无论是科研还是业务，这肯定是不行的。

Q:能否简单总结一下你对AI发展的看法。

张祥雨:AI应用的路线主要分为两条，一条叫AI in Digital World，一条叫AI in Physical World，即AI在数字世界和物理世界中的应用。像ChatGPT主要体现的还是以AIGC为代表的技术在AI in Digital World的应用。旷视更多的还是关注AI in Physical World。AI in Digital World的东西当然可以应用于AI in Physical World，但是物理世界中的AI包含了更多的问题，包括如何从物理世界中得到信息，如何对这个信息进行处理，然后如何再把它应用到物理世界，最后如何再从物理世界中得到反馈。所以说，它是一个更难更有挑战性的问题。旷视将会沿着AI in Physical World这条路线继续探索。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

荐AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects功能；Kimi K2-0905 上线 Discord

本文汇总了AI领域最新动态：苹果与谷歌合作，计划在Siri中引入Gemini AI技术；OpenAI向免费用户开放Projects功能，提升任务管理效率；谷歌推出免费Gemini CLI工具，集成GitHub提升开发效率；OpenAI估值飙升至5000亿美元，二级股票售出103亿美元；苹果自研AI搜索引擎“世界知识问答”计划2026年上线；月之暗面发布Kimi K2-0905模型，提升编程与创意写作能力；Raycast推出Cursor Agent插件优化代码编辑；谷歌发布nano banana官方Prompt模板，助力创意设计。

AI Siri Gemini
ChatGPT语音模式增添新功能：可调语速支持0.5到2.0倍速

OpenAI为其ChatGPT网页应用的语音模式推出新功能，加入语音速度”调节与自定义指令前缀”，同时配合此前升级的模型选择器，进一步提升用户体验。新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速，范围从0.5倍速到2.0倍速，不过该功能目前仍处于隐藏状态，尚未正式开放。自定义指令前缀”功能则允许语音模式记住用户的特定要求，避免重复输入。系统明确�

ChatGPT 语音模式自定义指令
哪里找最新AI工具官网？如何快速对比ChatGPT替代品？AI工具导航指南 - AIbase

文章探讨了在AI工具爆炸式增长的时代，用户面临的信息过载和筛选困难问题。主要内容包括：1）AI领域迭代速度远超传统软件，个人追踪信息效率低下且容易错过关键更新；2）AIbase.cn平台致力于解决这一问题，通过聚合主流AI工具、严格审核信息来源、持续更新行业动态；3）平台提供多维对比功能，结构化呈现工具参数，帮助用户快速定位适合需求的解决方案；4）建议用户定期浏览平台资讯栏目，善用搜索筛选功能，通过对比视图做出明智选择。核心价值在于降低信息筛选成本，让用户更高效地获取有价值的AI工具和前沿资讯。

AI工具导航信息筛选参数对比
永恒之声，现代演绎 Technics 推出全新直驱式唱盘机SL40C/40CBT

Technics推出全新SL-40C/40CBT直驱唱盘系统，融合高端机械技术与现代设计。该产品延续品牌经典特性，如无芯直驱电机和高精度S形铝合金唱臂，同时升级外观与易用性。配备预装唱头、内置唱头放大器，支持蓝牙连接（仅40CBT型号），提供三种现代配色。旨在满足HiFi用户和现代家庭音频爱好者的需求，兼顾音质与便捷体验。

高端机械技术现代风格便捷性
当黑胶豆染上午夜蓝：Technics 60周年的深邃献礼，四色如律至臻原音

2025年9月，Technics推出旗舰无线蓝牙耳机EAH-AZ100新配色“午夜蓝”，可选颜色增至四种。该耳机凭借卓越音质、智能操控和舒适佩戴体验广受赞誉，采用磁流体驱动单元提供高保真音效，集成自适应降噪和AI语音聚焦功能，支持杜比全景声和360度空间音频。具备多设备连接、Qi无线充电和超长续航28小时，兼容最新蓝牙LE音频标准。

EAH-AZ100 真无线蓝牙耳机午夜蓝
百度APP发布AI星河计划，构建AIGC创作者全方位扶持体系

8月29日，百度AIGC未来创作联赛颁奖典礼在京举行，活动汇聚众多高质量AIGC作品与优秀创作者。百度发布“AI星河计划”，投入亿级流量和千万现金补贴，通过流量扶持、涨粉加速、分成翻倍、多元变现等手段，构建全方位创作者专属成长扶持体系。该计划根据作者AI技术与内容创作能力区分4档创作者，提供定制化支持套餐，最高可享亿级流量池和3倍分成补贴。百度APP依托月活7.35亿流量池与技术优势，已成为AIGC内容平台市场头部玩家，期待与更多优秀创作者共建未来内容生态。

AIGC 百度APP AI星河计划
业界首次！华为Mate XTs非凡大师将PC软件装入手机

华为Mate XTs非凡大师今天下午正式亮相，新增槿紫、皓白两款配色。余承东介绍，华为Mate XTs非凡大师业界首次将PC装进口袋里，在Harmonyos的加持下，支持自由多窗、全景多窗和多个PC级应用，获得PC般的交互体验。华为Mate XTs非凡大师业界首次把PC版WPS软件装入手机、业界首次把多窗交互装入手机、业界首次把PC版东方财富装入手机，还有PC版万兴脑图、万兴图示。

华为Mate XTs 非凡大师
荐AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台 Statsig；ElevenLabs 音效模型更新

抖音打击AI技术滥用行为，对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2，支持长音频和无缝循环。OpenAI收购数据分析平台Statsig，增强产品迭代能力。亚马逊推出Lens Live AI功能，实时扫描购物。谷歌AI推出Stax工具，帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型，提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型，优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld，精准率达92%。瑞士发布开源大模型Apertus，提供多语言处理能力。

AI技术滥用抖音公告虚假商品展示
企业查询新进程：企业查询MCP、风险查询MCP、供应商管理MCP、上市公司MCP和招投标MCP

水滴信用基于MCP协议，在企业查询、风险预警、供应商管理、上市公司分析及招投标五大场景实现智能应用。通过全维度企业信息库，提供实时交互、全景数据融合及可追溯分析，推动企业决策从手动查找转向智能问答，提升信息获取效率并重塑数据使用模式，助力企业实现更前瞻、可靠的智能决策支持。

企业信息获取数据处理 MCP协议
学生党必看！三款酷睿Ultra笔记本，覆盖计算机专业学习与创作全场景

本文针对计算机专业学生面临的设备选择痛点，推荐搭载英特尔酷睿Ultra处理器的高性能笔记本。重点介绍联想YOGA Air14 Aura AI元启2025，其配备酷睿Ultra7-258V处理器、32GB内存和1TB SSD，支持多任务编程、4K视频剪辑及本地AI模型运行。同时推荐荣耀MagicBook Pro14和联想小新14 Pro GT两款高性价比机型，均兼顾性能与便携性，满足学习、开发及创作需求，助力学生高效应对专业挑战。

计算机专业笔记本推荐高性能笔记本

今日大家都在搜的词：

热文

3 天
7天

对话MEGVII旷视科技研究院张祥雨-ChatGPT的科研价值可能更大

荐AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects功能；Kimi K2-0905 上线 Discord

ChatGPT语音模式增添新功能：可调语速支持0.5到2.0倍速

哪里找最新AI工具官网？如何快速对比ChatGPT替代品？AI工具导航指南 - AIbase

永恒之声，现代演绎 Technics 推出全新直驱式唱盘机SL40C/40CBT

当黑胶豆染上午夜蓝：Technics 60周年的深邃献礼，四色如律至臻原音

百度APP发布AI星河计划，构建AIGC创作者全方位扶持体系

业界首次！华为Mate XTs非凡大师将PC软件装入手机

荐AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台 Statsig；ElevenLabs 音效模型更新

企业查询新进程：企业查询MCP、风险查询MCP、供应商管理MCP、上市公司MCP和招投标MCP

学生党必看！三款酷睿Ultra笔记本，覆盖计算机专业学习与创作全场景

今日大家都在搜的词：

热文

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

三大运营商回应是否支持eSIM版iPhone：需等待通知

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects

AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台

尊界S800选配星空顶涨价3万：价格上调至 8 万元

苹果折叠屏iPhone或将采用真全面屏形态：告别刘海与挖孔

华为FreeBuds 7i无线耳机开售：首发价499元

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

华为MatePad Mini外观公布支持蜂窝网络通话功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

三大运营商回应是否支持eSIM版iPhone：需等待通知

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

腾讯回应被米哈游起诉：没正式程序不能违规提供QQ用户资料

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

站长商机