首页 > 业界 > 关键词  > Karpathy最新资讯  > 正文

12年前上手深度学习,Karpathy掀起一波AlexNet时代回忆杀,LeCun、Goodfellow等都下场

2024-05-05 22:33 · 稿源: 机器之心公众号

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权站长之家转载发布。

没想到,自2012年 AlexNet 开启的深度学习革命已经过去了12年。

而如今,我们也进入了大模型的时代。

近日,知名 AI 研究科学家 Andrej Karpathy 的一条帖子,让参与这波深度学习变革的许多大佬们陷入了回忆杀。从图灵奖得主 Yann LeCun 到 GAN 之父 Ian Goodfellow,纷纷忆往昔。

到目前为止,该帖子已经有63万 + 的浏览量。

图片

在帖子中,Karpathy 提到:有一个有趣的事实是,很多人可能听说过2012年 ImageNet/AlexNet 的时刻,以及它开启的深度学习革命。不过,可能很少有人知道,支持这次竞赛获胜作品的代码是由 Alex Krizhevsky 从头开始,用 CUDA/C++ 手工编写的。这个代码仓库叫做 cuda-convnet, 当时托管在 Google Code 上:

图片

https://code.google.com/archive/p/cuda-convnet/

Karpathy 想着 Google Code 是不是已经关闭了 (?),但他在 GitHub 上找到了一些其他开发者基于原始代码创建的新版本,比如:

图片

https://github.com/ulrichstern/cuda-convnet

“AlexNet 是最早将 CUDA 用于深度学习的著名例子之一。”Karpathy 回忆说,正是因为使用了 CUDA 和 GPU,AlexNet 才能处理如此大规模的数据 (ImageNet),并在图像识别任务上取得如此出色的表现。“AlexNet 不仅仅是简单地用了 GPU,还是一个多 GPU 系统。比如 AlexNet 使用了一种叫做模型并行的技术,将卷积运算分成两部分,分别运行在两个 GPU 上。”

Karpathy 提醒大家,你要知道那可是2012年啊!“在2012年 (大约12年前),大多数深度学习研究都是在 Matlab 中进行,跑在 CPU 上,在玩具级别的数据集上不断迭代各种学习算法、网络架构和优化思路。” 他写道。但 AlexNet 的作者 Alex、Ilya 和 Geoff 却做了一件与当时的主流研究风格完全不同的事情 ——“不再纠结于算法细节,只需要拿一个相对标准的卷积神经网络 (ConvNet),把它做得非常大,在一个大规模的数据集 (ImageNet) 上训练它,然后用 CUDA/C++ 把整个东西实现出来。”

Alex Krizhevsky 直接使用 CUDA 和 C++ 编写了所有的代码,包括卷积、池化等深度学习中的基本操作。这种做法非常创新也很有挑战性,需要程序员对算法、硬件架构、编程语言等有深入理解。

从底层开始的编程方式复杂而繁琐,但可以最大限度地优化性能,充分发挥硬件计算能力,也正是这种回归根本的做法为深度学习注入了一股强大动力,构成深度学习历史上的转折点。

有意思的是,这一段描述勾起不少人的回忆,大家纷纷考古2012年之前自己使用什么工具实现深度学习项目。纽约大学计算机科学教授 Alfredo Canziani 当时用的是 Torch,“从未听说有人使用 Matlab 进行深度学习研究......” 。

图片

对此 Yann lecun 表示同意,2012年大多数重要的深度学习都是用 Torch 和 Theano 完成的。

图片

Karpathy 有不同看法,他接话说,大多数项目都是在用 Matlab ,自己从未使用过 Theano,2013-2014年使用过 Torch。

图片

一些网友也透露 Hinton 也是用 Matlab。

图片

看来,当时使用 Matlab 的并不少:

图片

知名的 GAN 之父 Ian Goodfellow 也现身说法,表示当时 Yoshua 的实验室全用 Theano,还说自己在 ImageNet 发布之前,曾为 Alex 的 cuda-convnet 编写了 Theano 捆绑包。

图片

谷歌 DeepMind 主管 Douglas Eck 现身说自己没用过 Matlab,而是 C++,然后转向了 Python/Theano。

图片

纽约大学教授 Kyunghyun Cho 表示,2010年,他还在大西洋彼岸,当时使用的是 Hannes SChulz 等人做的 CUV 库,帮他从 Matlab 转向了 python。

图片

Lamini 的联合创始人 Gregory Diamos 表示,说服他的论文是吴恩达等人的论文《Deep learning with COTS HPC systems》。

图片

论文表明 Frankenstein CUDA 集群可以击败10,000个 CPU 组成的 MapReduce 集群。

图片

论文链接:https://proceedings.mlr.press/v28/coates13.pdf

不过,AlexNet 的巨大成功并非一个孤立的事件,而是当时整个领域发展趋势的一个缩影。一些研究人员已经意识到深度学习需要更大的规模和更强的计算能力,GPU 是一个很有前景的方向。Karpathy 写道,“当然,在 AlexNet 出现之前,深度学习领域已经有了一些向规模化方向发展的迹象。例如,Matlab 已经开始初步支持 GPU。斯坦福大学吴恩达实验室的很多工作都在朝着使用 GPU 进行大规模深度学习的方向发展。还有一些其他的并行努力。”

考古结束时,Karpathy 感慨道 “在编写 C/C++ 代码和 CUDA kernel 时,有一种有趣的感觉,觉得自己仿佛回到了 AlexNet 的时代,回到了 cuda-convnet 的时代。”

当下这种 "back to the basics" 的做法与当年 AlexNet 的做法有着异曲同工 ——AlexNet 的作者从 Matlab 转向 CUDA/C++,是为了追求更高的性能和更大的规模。虽然现在有了高级框架,但在它们无法轻松实现极致性能时,仍然需要回到最底层,亲自编写 CUDA/C++ 代码。

举报

  • 相关推荐
  • 大家在看
  • Jovu:AI驱动的代码生成,快速实现从想法到生产。

    Jovu是一个AI驱动的代码生成模型,旨在帮助开发者快速构建新服务或扩展现有应用程序。它通过AI技术生成生产就绪的代码,确保一致性、可预测性,并遵循最高标准。Jovu能够加速开发过程,从概念到部署只需几分钟,提供完全可操作的、健壮的后端服务,准备立即上线。它还通过简化开发工作流程、减少时间、优化资源来提高效率和速度。

  • TapScanner:全能扫描仪,AI助力,智能识别与分析。

    TapScanner是一款利用人工智能技术,将移动设备转变为多功能智能扫描仪的应用程序。它能够识别和分析各种对象和文档,提供即时洞察力,并通过扫描轻松提升日常交互。

  • TopicRanker:AI驱动的SERP分析工具,帮助用户发现易于排名的关键词。

    TopicRanker是一款AI驱动的搜索引擎排名分析工具,专注于帮助用户通过分析竞争对手的弱点,发现在搜索引擎结果页面(SERP)中易于排名的关键词。它通过提供详尽的分析报告,AI生成的标题建议,内容大纲,博客文章,以及增强型元描述,帮助用户优化内容创作,提高SEO效果。产品背景信息包括它是由CriminallyProlific.com开发的,并且已经帮助多个企业在谷歌上排名第一。价格方面,TopicRanker提供三种不同的订阅计划,满足不同用户的需求。

  • Warmy:通过AI引擎提高电子邮件的投递率

    Warmy是一个利用人工智能技术来优化电子邮件投递率的平台。它通过分析每个邮箱的发送活动和接收者行为,为每个邮箱制定个性化的预热计划,确保邮件发送量逐渐增加而不会触发垃圾邮件过滤器,从而最大化邮件的投递率。此外,Warmy的Adeline AI引擎能够实时分析发送性能,预测最佳发送时间和频率,帮助用户提高参与度,避免过度发送邮件给接收者造成困扰。Warmy还具备AI驱动的垃圾邮件风险检测功能,能够主动识别并标记具有高垃圾邮件风险的邮件,帮助用户避免邮件落入垃圾邮件文件夹,确保重要邮件能够送达接收者。

  • Glitter AI:将任何流程转化为逐步指南。

    Glitter AI是一个创新的在线工具,它允许用户通过点击和说话来快速创建逐步指南。这项技术简化了教学过程,使得向同事、客户甚至家人传授技能变得简单快捷。

  • Tourly Guide:沉浸式音频导览,让每个地标自己说话

    Tourly Guide是一款移动应用程序,通过使用人工智能技术,为用户提供独特的沉浸式音频导览体验。它允许用户在探索地标时,通过AI生成的音频指南获得深入的了解和教育。该产品的主要优点包括个性化的导览内容、用户友好的界面设计以及对教育和文化探索的重视。Tourly Guide的背景信息显示,它由Roadly, Inc.开发,旨在通过技术提升用户的旅游和学习体验。

  • SaveDay App:随时随地保存、管理和利用内容

    SaveDay是一个智能工具,用于捕捉、组织和利用你的知识。它提供了快速的信息捕捉解决方案,支持保存文章、网站、图片、视频等,并且可以在移动设备上搜索、询问和总结内容。SaveDay注重数据安全和隐私保护,不与第三方共享用户内容。

  • Neurture:通过了解大脑运作制定改变计划的APP

    Neurture是一个旨在帮助用户了解大脑如何运作,并通过基于研究的治疗方法来制定有效的改变计划的应用程序。它通过数字化手写日记条目、获取后续期刊提示建议、由人工智能支持的情景冥想和期刊推荐等功能,帮助用户打破习惯或解决成瘾行为,实现重要的其他目标。Neurture强调隐私和信任,不收集用户数据,不投放广告,不训练模型,旨在为用户提供一个安全、无负担的自我提升环境。

  • AiWatchfulCompanion:革命化的家庭护理方式,从婴儿到老年人。

    AiWatchfulCompanion是一款旨在改变我们照顾亲人方式的应用程序,它通过使用人工智能技术,为远离家乡的护理者提供实时的关怀和支持。该应用利用计算机视觉和音频分析,实时响应亲人的需求,提供连续的安全和健康保障。它还具备紧急响应功能,在无法联系到护理者时,能够向紧急服务提供事故位置。

  • Viva:使用的 Sora 同架构视频生成模型

    Viva 是一个免费的 AI 生成工具和社区,提供 Text-to-Image、Image-to-Image、Text-to-Video、Image-to-Video 等功能,以及强大的 AI 编辑工具。用户可以扩展图像、重新绘制任何内容,使图像和视频更加高质量和 4K。Viva 使 AI 创作更简单、高效。海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型,而且现阶段免费。 文生视频单次可以生成一条 5 秒的视频,图生视频是 4 秒视频 目前运动幅度最大的视频生成模型,同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好,同时如果要是用的话建议把运动幅度调到 20 左右比较合适。 viva 优势领域就是可以生成比较好的竖屏视频,目前很多视频模型的演示都是横屏视频,竖屏的表现并不好,但是短视频又是视频内容的大头,所以竖屏视频的生成质量是个很重要的指标。 但是一致性有一部分测试中保持的不是很好,同时没有表现出 Sora 那样强大的物理特性模拟以及 3D 一致性。

  • 大模型之家:提供全面的人工智能大模型产业信息和创新价值研究。

    大模型之家是一个专注于人工智能大模型产业的平台,提供行业报告、技术创新动态、专家评测和奖项荣誉等信息。它通过整合行业资源,推动人工智能技术的创新和应用,帮助企业和个人更好地理解和利用大模型技术。

  • Productboard AI:利用人工智能增强产品团队的决策力和效率

    Productboard AI 是一款集成到产品管理平台中的人工智能工具,它通过分析和理解大量的用户反馈和数据点,帮助产品团队做出更明智的决策,提高工作效率,并加速产品从概念到市场的整个生命周期。它由 OpenAI 提供支持,确保数据安全和隐私保护,同时提供无与伦比的数据组合和针对产品管理工作的微调优化。

  • UserCall:人工智能语音用户访谈代理,深入洞察客户需求。

    UserCall是一款利用人工智能技术进行用户访谈的网站,它通过AI采访员与用户进行一对一的语音通话,从而收集高质量的用户反馈和洞察。这种技术可以大规模地进行用户访谈,提供比传统调查更深入的定性见解,同时节省时间和资源。UserCall的优势在于无需专业用户研究技能,能够自动进行智能跟进提问,帮助企业更好地理解客户需求,改进产品和业务。

  • VideoToPage:将视频或音频内容快速转换成结构化网页摘要的多功能工具。

    VideoToPage是一个高效的在线工具,它能够将视频或音频内容转换成结构化的网页摘要,支持多达96种语言,并具有98.5%的高准确率。用户无需订阅即可使用,特别适合需要将视频内容转换成文字资料、教程、博客文章、标准操作程序(SOP)等多种形式的个人和企业。产品提供快速的转录服务,支持长达5小时的视频,且5分钟以内的文件完全免费。此外,还提供内容的语义层次构建、内容类型定义、语义互连、富文本编辑、多语言理解等功能,使得内容的创建、编辑和发布变得简单快捷。

  • Fiskl:现代AI自动化全球会计解决方案,专为小型企业设计。

    Fiskl是一个多货币的全球会计平台,为小型企业、创业者、开发者和自由职业者提供全面的财务管理工具。它支持170多种货币和21,000多家银行,利用人工智能技术简化银行对账流程,实现零接触Stripe支付和银行对账。Fiskl的主要优点包括实时现金流和财务概览、自动化银行同步、全球支付能力、AI驱动的对账节省高达80%的对账工作量。Fiskl的定价策略包括特别优惠,例如年度订阅可享受50%的循环折扣,并提供30天免费试用期。

  • reap.video:一键将长视频转换为社交媒体短视频的工具。

    reap是一款基于人工智能的视频再利用工具,它能够将长视频内容一键转换成适合社交媒体的短视频。它通过先进的AI分析自动提取视频中最吸引人的片段,生成能够吸引观众的短片。reap支持多种语言,并提供了智能字幕生成、品牌模板定制等功能,帮助内容创作者提高内容的吸引力和可访问性,加速增长和变现。

  • 稀土掘金大模型子站:一站式AI资讯平台,连接开发者与AI技术的最新动态。

    掘金大模型子站是一个专注于AI领域的技术社区平台,提供从基础设施到最终应用的全景图,旨在帮助个人开发者和企业更好地理解和应用大语言模型技术。该平台通过提供资讯、工具和资源,促进AI技术的创新和应用,推动整个AI生态的发展。

  • Cubox:为学习而生的AI阅读器,高效筛选优质内容,提升阅读和学习效率。

    Cubox是一款专业的AI阅读器,旨在通过智能技术帮助用户筛选和整理阅读内容,提升阅读效率和学习效果。它具备自动高亮精彩内容、一键解读网页文章、专业级标注等功能,适用于需要大量阅读和学习的用户。产品背景信息显示,Cubox深受全球专业人士青睐,并且用户阅读的文章总数达到了23,325,802篇,显示了其广泛的用户基础和影响力。

  • InsideAI:实时分析工具,助你洞察竞品用户反馈。

    Inside AI 是一款基于人工智能技术的实时分析工具,它能够帮助用户追踪竞品的用户反馈和市场动态。该工具通过实时网络连接,分析用户评论,依托专有技术,为用户提供可操作的见解。它适用于独立开发者、初创公司、企业、分析师和风险投资公司等,帮助他们节省研究时间,找到正确的产品开发方向。

  • Glato AI:使用人工智能快速生成高质量产品视频

    Glato人工智能是一个通过人工智能技术快速生成高质量产品视频的平台。该产品能够自动生成引人入胜的短视频广告,帮助用户提高投资回报率,并节省创作者招聘等待时间。价格合理,定位于帮助企业提升市场营销效率。

今日大家都在搜的词:

热文

  • 3 天
  • 7天