首页 > 传媒 > 关键词  > AI发展最新资讯  > 正文

对话MEGVII旷视科技研究院张祥雨-ChatGPT的科研价值可能更大

2024-07-30 11:46 · 稿源: 站长之家用户

ChatGPT掀起了一场AI在大众圈的话题热潮,全民热聊中也对AI发展方向和未来发展趋势提出了很多问题,也有许多人想问以ChatGPT为代表的AIGC的兴起,对计算机视觉、AIoT的产业发展有何种启发。我们邀请了旷视研究院基础科研负责人张祥雨做客这次的对话,分享他的思考和观点。

ChatGPT在语言逻辑推理,高阶指代关系推理的能力很强

但是...

Q:你与ChatGPT对话了哪些内容,你的使用感受如何?

张祥雨:自ChatGPT发布以来,包括这次爆火之前,我基本上每天都在使用。我主要关注的是它的逻辑推理能力,而不仅仅是它拥有哪些知识。我认为,逻辑推理能力对判断一个模型是不是达到了类似人的思维水平更重要。让我特别惊讶的一点是,ChatGPT在语言逻辑推理,尤其是在多轮对话,以及高阶指代关系推理的能力很强。当然它也有很多问题,主要是在常识建模、尤其是数学逻辑能力比较欠缺,对数字的敏感性(比如大小关系等)不强。总体来说,它的能力还是大大超出了我的预期。

Q:你如何看待目前全民关注ChatGPT的火爆现象呢?有人说它带动了AI新一轮的发展浪潮,你认同吗?

张祥雨:非常认同。其实带动AI新一轮浪潮的,不止是ChatGPT,它只是大模型技术的一种应用。这两年学术界在AI大模型,尤其是自然语言大模型方面取得了跨越式的发展。这里面的核心逻辑是什么呢?其实和大模型背后我们称之为scaling law(规模化效应)的性质有关。简单来说,就是在AI模型里,我们可以通过不断地增加数据、增加模型大小来实现性能的持续提升。

其实,Scaling law这件事并不新,近十年来深度学习演进的历史大体上都体现了这条定律。但是在此之前很多人都认为scaling law快到头了,为什么呢?因为随着模型的增大和数据量的增多,模型的收益是逐渐递减的,存在一个“边际效应递减”的效应:即越增加数据,收益就越来越不明显,性价比就越低。但这两年,大家在NLP大模型上发现了一个非同寻常的现象——当这个模型的参数量、训练数据量到达千亿量级时,模型的高档思维能力突然出现了跨越式的增长,这个增长是过去从来没有发现过的。可能过去增加一点数据,模型性能就提升一点。但现在大概在千亿这个参数关口,大家发现数据和模型量稍微再增加一点,模型突然出现了原来不曾有的推理能力,还激发了一些之前我们认为人类才有的能力,比如思维链能力。当然它背后还有很多技术,像代码预训练等,共同推动了这种跨越式的发展。

所以我觉得这件事是非常了不起的,它不仅仅可以带来很多产业上的用途,它的影响力甚至可能已经超过了AI这个领域。对人们如何理解思维,揭示人类智能产生的起源也有非常大的启发价值。

Q:你如何看待ChatGPT的应用趋势呢?它会对哪些行业产生影响? 

张祥雨:应用这块我觉得大家见仁见智。以现在ChatGPT它所代表的大模型的发展水平,大家最看好的、较早落地的应用可能是智能搜索引擎,此外像各种文字编辑工作,以及各种垂直领域都有落地的潜力。当然在落地过程中可能也会遇到一些问题,比如说如何保证答案的准确程度,如何保证生成的内容是正确的,以及在部署推理的时候要怎么把这个大模型给用起来,真正做到有效并且降低运行成本,这都是落地时需要讨论的。但是我认为,目前以ChatGPT为代表的AIGC,包括它背后的大模型的意义,不仅仅是在落地本身,在我看来它的科研价值可能更大。  

Q:可以展开讲讲ChatGPT的科研价值吗?

张祥雨:科研价值主要体现在研究人类智能如何产生。其实从技术角度来看,AI大模型的设计和训练过程并没有专门针对智能做特殊的设计。它的逻辑推理、思维链、reasoning的能力,是研究人员通过大幅增加参数量、增加训练数据量的过程中突然激发出来的,这个现象是非同寻常的。其实这和生物的进化包括人类的进化史也是非常像的,从底等生物、高等生物再到人类,进化过程中的思维能力也是突然产生的。

这种突然产生的智能背后不是靠专门的设计,是模型自然而然所形成的。关于这一点到底要如何理解?现在“有智能”的大模型相对于原来“没有智能”的那些模型到底产生了哪些质变?这些都是非常前沿且有趣的课题,值得我们探索。

我们的选择是专注在“AI in Physical”,从物理世界中来,到物理世界中去。。

Q:像这类LLM模型(大型语言模型)的发展,会对计算机视觉的发展有何启发?

张祥雨:其实LLM就是我们说的大型语言模型,它之所以这么成功尤其是这两年又得到大量的关注,跟它在scale up的过程中发现了一些异乎寻常的现象有很大关系:LLM模型在scale up的过程中,大家发现它突然产生了逻辑推理能力以及一定的思维能力等等。所以我觉得对视觉的启发就是,我们在视觉领域是否也能得到一个类似“异乎寻常”的现象。当然现在视觉模型从大小上来说还是跟语言模型差很远,继续走scale up这条路到底是不是对的,现在还不好说。但是既然scale up这条路在语言上已经取得了这么大的成就,我们觉得还是非常有必要在视觉上也尝试一下是不是能走通。

除此之外,视觉模型如果要对实际落地产生影响,它还有很多比语言模型更加麻烦的地方,因为我们知道语言是人类创造的,但是视觉是大自然中本来就有的,并且其中也会融入人的理解,那么相对而言视觉在建模方面会比语言更难一些,不仅要处理好数字世界中的关系,还要处理跟真实物理世界进行交互的能力。

具体到大模型这个领域,我们知道大模型主要成功依赖的是数据和模型的不断的增长,但是在计算机视觉,一旦涉及到物理世界我们会发现,无论是数据的收集还是数据的计算处理,以及与外界的感知交互,scale up起来难度更大一些。

首先是数据的获取,我们知道语言模型可以从网络上收集大量的人类互相问答还有各种文章的数据。图像当然也可以,收集大量的网络图像,但为了实现真正的落地应用,比如各种工业场景,像自动驾驶、机器人等,这不是仅靠收集网络图像就能解决的,还必须得有特定场景的专门数据;如何获取并且有效地利用这些数据,本身就是一个比较困难的问题。

其次是算法,像这一波大模型的风潮很大程度上可以归结为自监督算法的成功。所谓自监督算法意思是监督信号不再需要人类一个一个进行标注,可以从数据自身的信息中进行自我监督、自我训练,这样才可以scale up到非常大。对语言来说,我们有好几种自监督手段,比如说可以不断地通过前面的词、前面的句子来预测下一个字是什么,就像大家写文章一样,这种我们称之为Autoregressive(自回归)模型。视觉里面也有类似的做法,比如说像最近非常火的MIM(掩码图像建模)算法,我们可以把图像捂住一块,预测被捂住的一块是什么。但是我们也发现目前MIM这套框架以及其他自监督框架都有一些问题,当它扩展到更大的数据集时,它的表现并不如在语言模型中见到的这么明显,事实上当我们不断地增加数据达到一定规模以后,它的性能提升就停滞了,于是我们就不得不想一些新的办法。这块其实目前还没有得到特别好的解决,更多的还是依赖于人类标注的数据。

最后一块是关于跟外界的交互。在AI in physical world应用中,当模型依据视觉信号做了一个动作或是产生了一个策略,我们要判断它好不好,很多时候是要落实到物理世界中去,比如需要控制自动驾驶车辆、机械臂、仓储机器人等等,跟物理世界产生一些交互,交互的结果将会影响我们下一轮决策。其实说起和现实世界的交互,目前的自然语言大模型已经有所涉及了,例如OpenAI他们做ChatGPT之前还做了一个WebGPT的项目,就是与互联网产生交互。比如阅读一段文本,它为了理解这段文本就需要操作搜索引擎去检索一些信息来支持它做下一步的输出,它需要跟互联网世界产生交互,这个交互体现为一个搜索的动作。当然,这种动作是发生在数字世界的,相对而言是比较容易的。但是做视觉的经常要跟物理世界进行交互,操作一个机械臂或是操作一个自动驾驶的机器人,从安全性和效率上考虑,这种交互闭环的形成肯定是不如在数字世界这么方便、有效且安全的,里面有很多坑需要我们去填。

Q:旷视会怎么去做这个布局呢?

张祥雨:我认为旷视这些布局还是要扎根具体的公司主营业务,包括几大AIoT的场景,从每一个场景出发,我们得先把“从物理世界中来,再到物理世界中去”的这条闭环跑通。只有形成了数据闭环、反馈闭环,模型得到监督信号才会越来越多,我们才有条件把这个模型越做越大,我认为这是最重要的一点。所以我们说“大”和“统一”的趋势是不可阻挡的,是我们现在解决AI in physical world的主要思路,但是要形成更大的规模化就必须要打通全链路,这无论是在商业布局还是在科研方面都必须要坚持的一点,就是要创造条件,想办法为模型做大提供契机。

Q:这些会对AIoT的设备提出怎样新的要求?

张祥雨:对AIoT设备的要求更多还是体现在算法和硬件要进行co-design上。因为每一种硬件、各种传感器和各种执行器一定是跟算法匹配的,不同的算法会对应不同sensor性能要求和不同的使用方式,这也是我们做AIoT或者是AI in physical world所必须要考虑的一点。

Q:最近新闻报道也比较多,大家对于这项技术的高度关注,试用反馈、解读,是不是给了你一些新的启发?

张祥雨:全民开始关注AI是一个非常好的现象,说明我们这个领域切切实实能够产生社会影响。其实,每一波热点不管能不能持续下去,在某种程度上都促进了社会的进步,会诞生一些新的产品,启发一些新的科研方向等等。

Q:刚才你也提到了ChatGPT的爆火与做科研坚持长期主义有关。之前你也分享过基础科研应该遵循的原则是原创、实用、本质,你现在还是这种想法吗?

张祥雨:肯定是。因为你只是follow,不追求原创会陷入一个很大的陷阱,就是你去follow是可以的,但因为没有亲身去体验过这种创新过程,回避了过程中走过的弯路,很可能造成对这个技术边界判断不清晰,即使以后确实复现完成了,但你对这项技术可以做成什么事是缺少判断的,钱、资源都投进去了,结果发现解决不了问题,而别人原创团队已经做下一个了。这种状态肯定是出不了的成果的,无论是科研还是业务,这肯定是不行的。

Q:能否简单总结一下你对AI发展的看法。

张祥雨:AI应用的路线主要分为两条,一条叫AI in Digital World,一条叫AI in Physical World,即AI在数字世界和物理世界中的应用。像ChatGPT主要体现的还是以AIGC为代表的技术在AI in Digital World的应用。旷视更多的还是关注AI in Physical World。AI in Digital World的东西当然可以应用于AI in Physical World,但是物理世界中的AI包含了更多的问题,包括如何从物理世界中得到信息,如何对这个信息进行处理,然后如何再把它应用到物理世界,最后如何再从物理世界中得到反馈。所以说,它是一个更难更有挑战性的问题。旷视将会沿着AI in Physical World这条路线继续探索。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • FlyCode:利用AI优化订阅收入,减少客户流失。

    FlyCode是一款基于机器学习和人工智能技术的应用,旨在通过智能支付重试和优化支付流程来最大化订阅收入并减少客户流失。它为不同规模的品牌提供企业级的收入恢复服务,利用成千上万的数据点来确保尽可能高的恢复率。此外,FlyCode通过与客户电子邮件同步的智能逻辑来改善客户体验,确保在最佳时间和日期发送恢复电子邮件,提高打开率。这些电子邮件是事务性的且可定制的。

  • Coho AI:通过个性化体验,最大化每个用户的收益。

    Coho AI 是一款专注于用户旅程优化和客户留存管理的人工智能平台。它通过分析用户数据,自动发现最有价值的客户,个性化他们的体验,并自动增加每个用户的收入。该平台能够无缝集成到企业的数据中,自动对用户进行细分,识别最佳行动方案,并实时与用户互动,同时跟踪成功并持续优化增长策略。Coho AI 以其无需编码设置、实时行动、简单易用、智能自动化和快速见效等特点,帮助企业提升客户参与度和生命周期价值。

  • Superflex:前端开发助手,提升10倍开发效率。

    Superflex是一款前端开发助理插件,旨在帮助开发者通过各种输入方式快速构建UI组件和页面。它支持从Figma设计、草图、截图或文本提示生成代码,同时分析并重用现有代码库中的组件,以适应开发者的编码风格。Superflex通过VSCode插件的形式提供服务,支持多种输入源生成代码,并且能够适应开发者的编码风格,提供透明的定价策略,旨在帮助开发者提高工作效率,减少重复劳动,专注于创新和复杂问题的解决。

  • 博思AIPPT:AI一键生成PPT,开启做PPT新方式。

    博思AIPPT是一款利用人工智能技术,为用户快速生成PPT演示文稿的在线工具。它通过结构化大纲解析、导入文件、智能排版和AI重写等功能,帮助用户节省大量时间,专注于内容创作。产品背景信息显示,博思AIPPT覆盖全行业场景,包括市场营销、教育、设计等,适用于需要制作演示文稿的各类专业人士。产品提供免费试用,用户可以在线编辑PPT内容,零基础也能快速上手。

  • AI Comic Factory.com:利用AI技术,无需绘画技巧即可创造漫画。

    AI Comic Factory是一个在线AI漫画书生成器,它允许用户通过简单的描述来生成个性化的漫画。这个工具使用尖端的AI技术,使得即使是没有绘画技能的用户也能轻松创作出具有专业视觉效果的漫画。它支持多种漫画风格,包括美国、日本等,并提供多种布局选项。用户可以上传自己的图片,个性化故事,并利用AI保持角色在漫画中的一致性。此外,AI Comic Factory还提供了一个用户友好的界面,让用户能够轻松编辑和精细化他们的漫画作品。

  • 美图证件照:一分钟拍出专业证件照

    美图证件照是由美图秀秀出品的一款专业证件照制作APP,它通过提供多种照片规格和一键上传自拍照的功能,结合智能抠图剪裁、超清美颜和AI换装等技术,让用户可以轻松制作出理想的证件照。这款应用满足了用户在不同场合对证件照的需求,无需前往照相馆,即可在家中完成高质量的证件照制作。

  • Image to Video AI:在线将图片转换成视频的AI工具

    Image to Video AI是一个利用人工智能技术将静态图片转换成动态视频的在线工具。它通过用户上传图片和输入提示文本,快速生成具有动画文本和引人注目的过渡效果的视频。这种技术简化了视频制作流程,使得即使没有视频编辑经验的用户也能轻松创建专业级别的视频内容。产品的主要优点包括易用性、快速生成视频、无需下载安装、支持多种图片格式以及直接分享到社交媒体。

  • PicLumen:免费AI图像生成器,一键生成创意图像。

    PicLumen是一个在线AI图像生成器,它利用先进的人工智能技术,允许用户通过简单的文本输入快速生成高质量的图像。用户无需具备专业的设计技能,只需输入描述性文本,PicLumen的AI就能理解并创造出相应的图像。这个工具特别适合需要快速生成创意图像的个人和商业用户,无论是用于社交媒体内容创作、广告设计还是个人项目。PicLumen提供了多种图像风格,包括动漫、写实艺术、线条艺术和艺术风格,满足不同用户的需求。此外,它还支持图像到图像的个性化编辑,以及AI图像扩展功能,使用户能够无缝扩展图像并智能填充扩展区域。PicLumen的AI图像生成器是完全免费的,适用于个人和商业用途,但用户在使用时需要遵守其使用条款和条件。

  • Microsoft Teams:智能团队协作平台,提升工作效率。

    Microsoft Teams 是一款集成了聊天、会议、通话和协作功能的智能团队协作平台。它通过提供多种AI驱动的功能,如Copilot提示、Mesh虚拟协作和Teams电话服务,帮助团队更高效地沟通和协作。Teams 支持与Microsoft 365应用无缝集成,为不同规模的企业和教育领域提供定制化的解决方案。

  • My Storybook:创作并分享你的故事书

    My Storybook是一个在线平台,旨在帮助所有年龄段的作家创作、出版故事书。它提供写作、插图和角色创建等功能,让学习写作变得有趣。平台还为教师和学生提供教育解决方案,包括无缝的课堂集成和无限打印副本。

  • 阿贝智能:利用AI技术创作个性化儿童绘本

    阿贝智能是一家位于科技与教育交汇点的创新型企业,致力于通过尖端的人工智能技术,开启儿童教育的新纪元。我们相信每个孩子都拥有无限的潜能,而我们的使命是通过科技的力量,解锁这些潜能,帮助孩子们在愉悦的环境中成长和学习。

  • DeepLearning.AI:AI领域的专业课程和资源平台

    DeepLearning.AI 是由著名人工智能专家Andrew Ng创立的在线教育平台,专注于提供机器学习和深度学习领域的高质量课程和专业证书。该平台为初学者和专业人士提供了一个学习AI技能和应用它们的实践机会。通过与行业领导者的合作,DeepLearning.AI 确保了课程内容的前沿性和实用性,帮助学习者在AI领域建立坚实的基础,并推动他们的职业发展。

  • Microsoft Word:智能写作助手,文档设计和协作工具。

    Microsoft Word 是一款强大的文字处理软件,它通过智能写作辅助、文档设计和协作工具,帮助用户提升文档处理的效率和质量。Word 提供了丰富的模板、实时协作编辑、语音输入和命令、以及沉浸式阅读器等功能,支持多种语言,并与 Microsoft 365 其他应用无缝集成,适用于个人和企业用户。

  • ReadLecture:轻松视频转图文,加速内容学习与传播

    ReadLecture 是一款专注于讲座类视频转换为图文结合文档的平台,通过AI技术精准截取视频中的PPT和将演讲者的语言转换为文字稿,大幅提升视频内容的观看效率。该产品通过智能AI笔记生成,提供多维度笔记,包括内容大纲思维导图、自我问答、金句摘抄、专业术语解释、内容翻译等,助力用户高效学习和传播知识。

  • 数美智能文本检测:高效识别各类敏感、违禁、色.情等风险文本内容

    数美科技的智能文本检测产品基于先进的语义模型和海量多语种样本库,能够精准识别并过滤各种敏感、违禁、色.情、暴恐、辱骂、广告导流等风险文本内容。该产品支持多种海外语言检测和风险标签识别,适用于多种应用场景,如文档、帖子、评论、签名、昵称、弹幕等,帮助企业维护网络环境的清洁和安全。

  • 龙源AI检测系统:智能AI写作检测系统,保障文本原创性和学术诚信

    龙源AI检测系统是一款利用大数据和人工智能技术,为学术研究、教育评估、文化传媒等领域提供服务的高科技产品。该系统能够高精度地检测出AI生成的文本和抄袭内容,无论文本长度、类型和语境的限制。系统采用分布式计算和云端部署技术,快速响应和处理大量的文本请求,并自动识别和过滤出有效的文本,提高检测效率和准确度。

  • 知网个人AIGC检测服务:快速、准确识别学术文本中疑似AI生成内容。

    知网个人AIGC检测服务系统利用结构化、碎片化和知识元化的高质量文献大数据资源,结合知识增强AIGC检测技术和多种检测算法,从语言模式和语义逻辑两个维度,使用AI技术检测AIGC生成的内容,旨在帮助用户快速、准确地识别学术文本中的AI生成内容。该服务对于维护学术诚信和提高研究质量具有重要意义。

  • 有道翻译AI写作:一键生成论文、邮件等,提升写作效率。

    有道翻译·AI写作是一款旨在提高写作效率和内容质量的在线工具。它支持一键生成论文、邮件、公文通知、营销文案等,同时提供润色、扩写、总结、去重等高级功能。该产品支持100多种语言,通过多端同步技术,用户可以在不同设备上继续之前的工作,保证了数据的安全性和创作的连续性。

  • 触站AI:AI技术驱动的一站式智能绘画解决方案。

    触站AI绘画是广州触站科技有限公司旗下的一款利用尖端AI技术,为用户打造一站式智能绘画解决方案的平台。它整合了艺术与商业,使用户能够轻松地将想象力转化为现实,提高工作效率,同时开拓更多的商业机会。该平台的应用范围广泛,不仅适用于美术创作、动画制作,还可用于游戏开发、虚拟现实等多领域。

  • Influenbase:AI驱动的TikTok达人营销智能管家

    Influenbase是BrandPal旗下硅谷研发团队打造的AI驱动的TikTok达人营销智能管家。它通过AI算法精细化筛选达人,一键自动与优质达人批量建联,实现从达人建联、合作沟通、物流跟踪、达人视频审核及二次合作等功能,帮助品牌降本增效、实现高质量持续增长。

今日大家都在搜的词: