首页 > 业界 > 关键词  > 人工智能最新资讯  > 正文

Hinton揭秘Ilya成长历程:Scaling Law是他学生时代就有的直觉

2024-05-27 14:46 · 稿源: 量子位公众号

声明:本文来自于微信公众号量子位(ID:QbitAI),作者:梦晨,授权站长之家转载发布。

2003年夏天的一个周日,AI教父Hinton在多伦多大学的办公室里敲代码,突然响起略显莽撞的敲门声。

门外站着一位年轻的学生,说自己整个夏天都在打工炸薯条,但更希望能加入Hinton的实验室工作。

Hinton问,你咋不预约呢?预约了我们才能好好谈谈。

学生反问,要不就现在吧?

这位年轻学生就是Ilya Sutskever,刚刚完成本科二年级的数学课程,从教务处打听到“想学机器学习最好去找Hinton教授”。

他照做了,也因此成就了一段传奇:

从AlexNet到AlphaGo,他两次参与改变世界的研究

OpenAI创立之初挖他去当首席科学家,在他的领导下,推出了GPT系列早期版本、DALL·E系列、代码大模型Codex,直到ChatGPT,再次改变世界

多年后,他发动董事会内讧,最终与OpenAI彻底分道扬镳,全世界都在等待着他的下一个动作

在OpenAI的时候,Ilya并不像Altman那样到处抛头露面,也不像Brockman天天在网上分享自己的“编程之禅”。

仅有的几次演讲和访谈中也多是聊技术、宏观思考,不常谈及自己的经历,最近半年更是销声匿迹。

这次的故事,正是来自他的博士导师Geoffrey Hinton。

在与Sana Labs创始人的最新对话节目中,Hinton不仅讲了自己的事,还回忆了师徒共事期间的一些往事。

20多年过去了,很多细节在Hinton的叙述里还是那么鲜活。

这段访谈录像理所当然的火了,除了轶事之外,还涉及Ilya的一些学术思想怎么来的,又是如何发展:

  • 2010年Ilya就用GPU开发了一种语言模型

  • Scaling Law最早是他的一种直觉

  • 两人都认为”语言模型不只是预测下一个token“

  • 两人都认同“预测即压缩压缩即智能”

图片

那么,Hinton眼中的Ilya,到底是什么样子?

惊人的原始直觉

Ilya加入实验室后,Hinton给他布置的第一个任务是读论文,一篇关于反向传播的论文。

下一个周会,Ilya回来报告了,说“我不理解”。

Hinton很失望,内心OS:“这孩子看着挺机灵的,咋连链式法则求导这么基础的东西都看不懂?”

Ilya连忙解释,哦这个部分我懂了,我不理解的是,为什么不给梯度加一个sensible functional optimizer?

Hinto团队后来花了好几年来解决这个问题,最初指出问题的却是刚入门一周的Ilya。

像这样的情况后面还在反复发生……Hinton如此评价Ilya:

他对事物的原始直觉总是非常好。

但Hinton也说搞不清楚Ilya这种直觉从何而来,或许归功于他从小就对人工智能问题感兴趣,再加上数学基础很棒。

除了研究直觉,学生时期的Ilya也展现了超强的代码和工程能力。

当时还没有TenserFlow或Torch之类流行框架,机器学习的主要工具和平台是Matlab。

一项工作需要在Matlab里调整大量矩阵乘法代码,Ilya做了一段时间就很不耐烦,说要为Matlab写一个界面:

我用其他(Python等更方便的)语言写代码,然后能自动转成Matlab代码就好了。

Hinton听说后苦口婆心劝他,你可别,这得花上一个月时间,我们不要分心,把手头项目先做完。

Ilya却轻描淡写地说,害,没事,今天早上我已经写完了。

图片

这项工作出现在Ilya的博士毕业论文里

打小就坚信Scaling Law

正如Hinton所言,Ilya在很多问题上有惊人的直觉。

今天全AI圈不少人信奉的Scaling LawIlya学生时代就已坚信,并抓住各种机会向身边的人安利:

只要(把模型)做得更大,它们就会发挥更好的作用。

后来到OpenAI成立之初,Ilya的表述更加完善了:

如果你有一个大而深的神经网络,可以在大量数据上进行训练,那么你实际上可以解决任何模式识别问题。

早年间Hinton看来,这就像是研究者在没有创新的想法时,一种“逃避责任”的表现。

当时的我错了,而Ilya基本上是对的。

比如Transformer确实是一种创新想法,但实际上起作用的还是规模,数据的规模和计算的规模。

图片

Hinton提到在当年那个时间节点,没人敢预料计算机速度今后会快上10亿倍,最多想象到快100倍就不得了。

如果有今天的计算机,当年研究的难题可能会自行解决,包括语言模型问题。

(此处应插入比尔盖茨曾预言64k内存就足够任何人用了笑话)

Ilya在2003年加入Hinton的实验室,不知具体何时开始有了Scaling Law的想法,可能在他脑海里已经盘旋了20多年。

后来直到2020年,GPT-3发布的几个月前,OpenAI团队才正式在论文中向世人完整定义和介绍这一理念。

图片

在语言模型上用GPU,比AlexNet更早

2010年底,Ilya和另一个学生James Martens(现DeepMind研究科学家)合作研究了一种语言模型,后来入选ICML2011。

RNN架构,使用维基百科数据,在8张当时最先进的GPU上训练,比在AlexNet上使用GPU还早两年。

图片

与今天的大语言模型预测下一个token不一样,当时他们尝试的是一次预测一个字符。

这款模型能力有限,比如给一段起始文字,模型可以继续生成看起来像维基百科文章的语句。

虽然语意上像是胡言乱语,但语法和标点符号大部分是准确的,引号和括号已经能成对出现,主语和动词形态一致,比如论文中的一段:

生命的意义是古代人类繁殖的传统:对于好男孩什么时候移除她更大的来说,并不是很有利。在这个节目的协议中,几乎一致地重新浮现……

图片

当时多伦多大学校刊的采访中,Ilya认为这已经超出了所有人的预期:

它发现了单词的存在,也发现了语法。

Hinton理智上也无法去相信这个系统能“理解”任何事,但它看起来就像是理解了。

比如给它一个地点组成的列表,它可以继续生成地点,尽管还分不出国家和州的区别。

图片

当年的Ilya并不愿意讨论这项工作的潜在应用。

在维基百科上成功后,团队又尝试了纽约时报文章数据,目标是教会它根据文字识别不同作者的身份。

但Ilya已经想到并承认,如果做的足够好,这项技术有一天可能成为洗稿软件的基础。

如今,这篇论文的代码依然存放在多伦多大学的服务器上,供感兴趣的人研究。

图片

不止是预测下一个token

后来的AlexNet、师徒三人“拍卖”自己加入谷歌等大家已熟知的故事,这里先略过。

Ilya加入OpenAI后,虽然不再与Hinton共事,但两人的学术思想始终在一条路上。

ChatGPT问世后,不少人批评大模型本质上只是统计学,预测下一个token,就像随机模仿人类说话的鹦鹉。

但Hinton和Ilya师徒二人都认为,远不止如此。

在Hinton眼中,问题之后的下一个token,便是答案的第一个token。

因此学会预测,就意味着必须学会理解问题

这种理解的方式与人类相似,同时与老式基于三元组数据的自动补全有根本不同。

今天我们现在已经看到了,做一个大语言模型,不刻意训练其推理能力,就产生了推理能力。

这就是大脑如何学习,你在预测视觉的下一帧、听觉的下一个声音。

图片

Ilya更是不遗余力传播这套理论,在去年和英伟达老黄的炉边对话中说了这个,在OpenAI内讧两周前最后一个公开采访中也讲了这个:

当我们训练一个大型神经网络来准确预测互联网上许多不同文本中的下一个单词时,我们所做的就是学习一个世界模型。

从表面上看,可能只是在学习文本中的统计相关性。

但事实证明,为了“只是学习”文本中的统计相关性,为了压缩它们,神经网络需要学习的是文本生成过程的某种表示

文本实际上是对世界的投影

在另一场采访中,他走的更远:

很好地预测下一个token,意味着了解创造该token的深层现实。

这不仅是统计学,而是理解创造了这些统计数字的那个世界。

如果真的很擅长预测下一个token,就可能根据普通人如何行动的数据,外推出拥有非凡智慧和洞察力的人如何行动,尽管这种人可能并不存在。

这就是Ilya认为的,为什么“预测下一个token”范式有可能抵达AGI,甚至有可能超越人类直至ASI。

预测即压缩,压缩即智能

在不同场合提到“预测下一个Token”时,Ilya大概率会同时提到“压缩”,他认为预测即是压缩,压缩就是智能的来源。

但Ilya总是从理论的角度去解释这个想法,并不容易让所有人都能理解。

比如在UC Berkley的一场演讲中,他这样解释:

- “Kolmogorov压缩器”,是理论上能生成特定数据集的、长度最短的一段程序,能最小化遗憾值。

- 随机梯度下降,可以看成在软计算机(比如大型Transformer)的权重里,搜索隐含的“Kolmogorov压缩器”。

- 神经网络越大,就越能更好的近似“Kolmogorov压缩器”,遗憾值越低。

Hinton也认同这个说法,并且在访谈中举了非常形象的例子。

大模型做的是寻找共同结构,使用共同结构编码事物,这样效率更高。

如果你问GPT-4堆肥和原子弹相似性在哪,大多数人类都回答不出来,认为它们是非常不同的两种东西。

GPT-4会告诉你,虽然他们的能量规模不同,时间尺度不同,但仍有相同之处:

  • 当堆肥变热时,产生热量的速度就更快。

  • 当原子弹产生更多中子时,产生中子的速度也更快。

通过类比,AI就理解了“链式反应”的概念。

Hinton认为,AI在利用这种理解去将所有信息压缩到自己的权重中。

一但AI这样做了,那么它就有能力理解数百种人类还未见过的类比,这就是创造力的来源。

Hinton眼中什么是好学生?

说回到两人相遇时,Hinton谈到,与他交谈没多久就能看出他很聪明。

再多交谈一会,就能发现他有很好的直觉,而且擅长数学。

所以选Ilya做学生是非常容易做出的决定。

那么如何挑选其他学生?Hinton也用了Ilya最擅长的方法:跟着直觉走。

如果一个人轻信别人告诉他的一切,那就太致命了。

不轻信他人,而是尝试将新信息融入自己对世界的理解框架中,如果融入不进去,就拒绝,这是很好的策略。

如果试图吸收被告知的一切,最终会得到一个非常模糊的框架。相信一切,但是没有用处。

所以Hinton眼中的好学生,应该拥有一个坚定的世界观,并试图摆弄输入的事实以适应你的观点

这样虽然也可能陷入深信宗教或坚持致命错误,但我认为这种方法仍是正确的。

后来我们也能看到,两人都是秉持这样的理念,坚持着“大模型不止是预测下一个token”,坚持着“预测即压缩,压缩即智能”。

他们也都坚持认为,这个世界应该更加重视AI带来的风险,一个因此离开了工作10年的谷歌,一个因此离开了一手拉扯大的OpenAI。

Hinton访谈完整视频

https://www.youtube.com/watch?v=tP-4njhyGvo

参考链接:

[1]https://x.com/joelhellermark/status/1791398092400390195

[2]https://www.cs.utoronto.ca/~ilya/pubs/ilya_sutskever_phd_thesis.pdf

[3]https://magazine.utoronto.ca/people/students/ilya-sutskever-google-phd-fellowship/

[4]https://www.utoronto.ca/news/u-t-alum-leading-ai-research-1-billion-non-profit-backed-elon-musk

[5]https://icml.cc/2011/papers/524_icmlpaper.pdf

[6]https://www.nvidia.com/en-us/on-demand/session/gtcspring23-s52092

[7]https://www.youtube.com/watch?v=Yf1o0TQzry8

举报

  • 相关推荐
  • 大家在看
  • Joor:完美的日记应用,记录你的想法。

    Joor是一款日记应用,它允许用户写下自己的想法,并由应用自动处理其余部分。它提供了一个简洁的界面,让用户能够轻松地记录下自己的思考和灵感,同时可能还具备一些自动整理和回顾的功能。

  • Samba:高效无限上下文语言模型的官方实现

    Samba是一个简单而强大的混合模型,具有无限的上下文长度。它的架构非常简单:Samba = Mamba + MLP + 滑动窗口注意力 + 层级MLP堆叠。Samba-3.8B模型在Phi3数据集上训练了3.2万亿个token,主要基准测试(例如MMLU、GSM8K和HumanEval)上的表现大大超过了Phi3-mini。Samba还可以通过最少的指令调整实现完美的长上下文检索能力,同时保持与序列长度的线性复杂度。这使得Samba-3.8B-instruct在下游任务(如长上下文摘要)上表现出色。

  • TC-Bench:视频生成模型的时间组合性评估工具

    TC-Bench是一个专门用于评估视频生成模型的时间组合性的工具。它通过精心设计的文本提示、相应的真实视频以及强大的评估指标来衡量视频生成模型在不同时间点上新概念的出现及其关系转换的能力。TC-Bench不仅适用于文本条件模型,也适用于图像条件模型,能够进行生成性帧插值。该工具的开发旨在推动视频生成技术的发展,提高生成视频的质量和一致性。

  • Promptchains:智能AI工作流构建器,释放AI潜力。

    Promptchains是一个革命性的AI工作流构建器,旨在通过提示链技术解锁AI的潜力。它将复杂任务转化为智能解决方案,实现AI的承诺。产品通过组合AI提示和其他工具到工作流中,使企业能够轻松定制、保存、重用和分享。它超越了AI交互的新奇性,创造了能够与熟练的人类员工并肩工作的解决方案。

  • Sanctuary:个性化冥想引导,由AI驱动,提升专注力,减压助眠。

    Sanctuary是一款利用尖端AI技术为用户提供个性化冥想指导的应用程序。它通过智能学习用户偏好,提供每日更新的冥想内容,帮助用户改善专注力,减少压力,并促进更好的睡眠。该应用拥有超过10万次的个性化冥想创建记录,用户反馈显示,它简化了冥想过程,使冥想变得容易和可访问,对于缓解焦虑和整体压力水平有显著效果。

  • Partnerplace:合作伙伴管理工具,提升合作效率。

    Partnerplace是一款专为合作伙伴关系管理设计的在线工具,它通过自动化繁琐的任务,如佣金处理,帮助企业高效管理和发展合作伙伴网络。该工具支持定制化合作伙伴计划,实现品牌专业体验,并通过集中化平台提高工作效率。Partnerplace的价值观包括弹性、参与度和连接性,旨在为用户提供一个完全定制化的、参与性强的、连接销售团队和CRM系统的合作伙伴管理系统。

  • Depth Anything V2:先进的单目深度估计模型

    Depth Anything V2 是一个经过改进的单目深度估计模型,它通过使用合成图像和大量未标记的真实图像进行训练,提供了比前一版本更精细、更鲁棒的深度预测。该模型在效率和准确性方面都有显著提升,速度比基于Stable Diffusion的最新模型快10倍以上。

  • OTTO SEO by Search Atlas:革命性的AI SEO工具,简化SEO工作流程。

    OTTO SEO是Search Atlas推出的一款AI驱动的SEO工具,旨在通过自动化技术优化网站,提高SEO效率。它通过添加OTTO像素到网站,能够自动执行网页优化,包括技术修复、内容优化、反向链接建设和内容创作。OTTO SEO的主要优点在于节省时间、提高效率,并帮助营销团队或代理公司实现SEO策略的自动化和优化。

  • AI drafts by Help Scout:提升客服团队效率,实现个性化客户服务。

    Help Scout提供的AI客服平台,通过人工智能技术,帮助客服团队提升工作效率,减少重复性工作,让团队成员能够专注于更复杂和个性化的客户对话。平台特点包括无需编程即可使用、快速回复、提升客户满意度,以及通过AI生成回复草稿等。

  • OpenVLA:开源视觉-语言-动作模型,推动机器人操作技术发展。

    OpenVLA是一个具有7亿参数的开源视觉-语言-动作(VLA)模型,通过在Open X-Embodiment数据集上的970k机器人剧集进行预训练。该模型在通用机器人操作策略上设定了新的行业标准,支持开箱即用控制多个机器人,并且可以通过参数高效的微调快速适应新的机器人设置。OpenVLA的检查点和PyTorch训练流程完全开源,模型可以从HuggingFace下载并进行微调。

  • VideoLLaMA 2:视频理解领域的先进空间-时间建模与音频理解模型。

    VideoLLaMA 2 是一个针对视频理解任务优化的大规模语言模型,它通过先进的空间-时间建模和音频理解能力,提升了对视频内容的解析和理解。该模型在多选视频问答和视频字幕生成等任务上展现了卓越的性能。

  • HumanPlus:人类动作模仿与自主技能学习系统

    HumanPlus是一个研究项目,旨在通过模仿人类动作来训练人形机器人,从而实现自主技能学习。该项目通过模拟强化学习训练低级策略,并将这些策略应用到真实世界中,实现实时跟踪人类身体和手部动作。通过影子模仿技术,操作员可以远程操作机器人收集全身数据,用于学习不同任务。此外,通过行为克隆技术,机器人能够模仿人类技能,完成各种任务。

  • Jace:AI助手,助力高效营销与管理。

    Jace是一款商业领域的AI助手,专注于提升营销效率,无需专业技能即可轻松启动和管理营销活动。其主要优点包括创建针对性的营销活动、实时监控性能和随时优化。

  • ARC-AGI:人工智能通用推理测试集

    ARC-AGI是一个旨在测试人工智能系统是否具备类似人类一般流体智力的抽象和推理能力的数据集。它由400个训练任务和400个评估任务组成,每个任务都以JSON格式存储,包括输入输出对。该数据集可以作为人工智能基准测试、程序合成基准测试或心理测量智力测试。

  • PROTEUS:实时表情生成人类模型

    PROTEUS是Apparate Labs推出的一款下一代基础模型,用于实时表情生成人类。它采用先进的transformer架构的潜在扩散模型,创新的潜在空间设计实现了实时效率,并能通过进一步的架构和算法改进,达到每秒100帧以上视频流。PROTEUS旨在提供一种通过语音控制的视觉体现,为人工对话实体提供直观的接口,并且与多种大型语言模型兼容,可定制用于多种不同应用。

  • Warp:AI和协作工具重新定义的终端

    Warp是一款使用Rust语言编写的终端应用程序,它通过集成AI和协作工具,提供了现代化的编辑、命令生成、可复用工作流和知识共享等功能,旨在提升开发者的生产力。Warp的AI功能可以建议正确的命令或解答编程问题,同时保持请求的私密性和安全性。Warp Drive允许用户组织难以记忆的命令,提高个人和团队的效率。此外,Warp还提供了自定义主题和以隐私为设计原则的安全性。

  • TalkWithGemini:一键部署您的私人Gemini应用

    TalkWithGemini 是一款支持一键免费部署的跨平台应用,用户可以通过这个应用与 Gemini 模型进行交互,支持图片识别、语音对话等多模态交互方式,提高工作效率。

  • PowerInfer-2:专为智能手机设计的高效大型语言模型推理框架

    PowerInfer-2是一个为智能手机特别优化的推理框架,支持高达47B参数的MoE模型,实现了每秒11.68个token的推理速度,比其他框架快22倍。它通过异构计算和I/O-Compute流水线技术,显著减少了内存使用,并提高了推理速度。该框架适用于需要在移动设备上部署大型模型的场景,以增强数据隐私和性能。

  • emo-visual-data:表情包视觉标注数据集

    emo-visual-data 是一个公开的表情包视觉标注数据集,它通过使用 glm-4v 和 step-free-api 项目完成的视觉标注,收集了5329个表情包。这个数据集可以用于训练和测试多模态大模型,对于理解图像内容和文本描述之间的关系具有重要意义。

  • E3Gen:高效、表现力强、可编辑的数字头像生成

    E3Gen是一种新型的数字头像生成方法,能够实时生成高保真度的头像,具有详细的衣物褶皱,并支持多种视角和全身姿势的全面控制,以及属性转移和局部编辑。它通过将3D高斯编码到结构化的2D UV空间中,解决了3D高斯与当前生成流程不兼容的问题,并探索了在涉及多个主体的训练中3D高斯的表现力动画。

今日大家都在搜的词:

热文

  • 3 天
  • 7天