首页 > 传媒 > 关键词  > 机器学习最新资讯  > 正文

写在GTC之后:千亿算力并非生成式AI创业障碍,新型芯片及算法可能会重写垄断格局

2024-05-15 14:00 · 稿源: 站长之家用户

作者:邵旭辉,Foothill Ventures管理合伙人,在机器学习大数据系统软件系统工程领域从事研发和管理工作多年,曾任雅虎广告及大数据平台工程副总裁、Turn CTO及ID Analytics副总裁。他持有清华大学自动化学士学位及明尼苏达大学EECS博士学位。

上个月的GTC后,生成式AI相关的讨论久久不能平息,这个月Gen AI领域刚刚宣布的两个高额融资消息也引发了大量关注:Augment以近 10 亿美金的估值融资2. 27 亿美金,Cognition则以 20 亿美金估值融资1. 75 亿美金。从文字chatbot到视频生成、机器人,生成式AI的能力不断拓展,应用潮已经开始,行业内外,大家都很关心这个话题:AI将会带我们到何处去?

作为AI、深度学习领域多年的从业者,曾经的大公司管理者、创业者以及如今的深科技领域投资人,我在此抛砖引玉,谈谈我对生成式AI发展的个人判断。

本质上,我认为生成式AI的竞争力根植于这三个维度:

一是算力及基础设施,这也是许多大公司优势明显的地方。

二是算法,当然也意味着算法背后的人才。

第三则是数据及应用场景,对创业公司来说,这一部分仍存在着大量机遇。

我们下面可以从这三个维度来生成式AI的未来。

Gen AI并非算力竞赛,创业公司的机会在这些领域

在算力方面,Nvidia是GPU的领头羊、CUDA生态的开创者,具有巨大的优势,但其实,未来的生成式AI并非绝 对以算力定成败。

算力有限的创业公司或者科研机构,机遇主要在哪里呢?

首先,创业公司可以打造生成式AI的基础设施,解决底层的问题。

几乎所有的领域的公司,都在考虑自身在生成式AI方面的竞争策略。在数据隐私/计算安全、

准确性/可靠性、商业逻辑等等领域都会有很碎片化的的要求。而大厂的工具链服务链只能解决一部分需求,其他的就需要初创企业来填补。Lepton.AI、Corvic.AI、Fairly.AI 等都属于这个范畴。这些创业企业搭建了机器学习领域的基础架构,比如Corvic.AI,他们提供的解决方案让复杂数据能较为简便地转化为可用的企业级AI,提供预测分析、AI助手、数据标签等功能。

其次,虽然大公司在算力方面拥有优势,创业公司可以将目光投向专业领域——对于这些领域来说,持续积累的专业数据将会有着不可替代的价值,其中的行业壁垒、合规等方面的积累也能形成一定的护城河。

而更重要的是,不少领域(比如生物医药、网络安全、科研、制造)的底层逻辑和大模型擅长的语言文字视频并不相近,无法直接套用,也不容易简单的做二次开发就能获得好的结果。

从另一个角度来说,大模型也同样打开了许多新机遇,过去一些离商业化较远的领域可能忽然就有前进的动力了,其中往往会有创业公司的机会。

文初提到的AI写代码就是一个新出现的机遇,这两家企业都是近年来发展迅速的AI公司,Cognition的创立时间才刚刚半年。我们也投资了一个同类别的公司Metabob,通过AI来帮助人们找程序中的bug并修复它们。这类企业在AI与软件工程的交叉点找到了自己的市场。

近期机器人的热潮也是个很好的例子。

过去传统机器人往往只能解决单个任务,机器人的传感器、成本投入都有限,也限制了它的发展。

随着LLM的发展,机器人能够在虚拟空间通过强化学习(reinforcement learning)来进行学习、迭代、完成复杂任务,带来了一系列连锁反应——企业愿意开发拥有成本更高、能力更强机器人,这一行业也有了更多的想象空间与投入。斯坦福大学李飞飞教授参与的团队也构建了类似于当年ImageNet的针对虚拟空间训练测试机器人的基于物理模型的大规模训练场景。

今年 3 月,机器人公司Figure与OpenAI合作发布的视频引发了很多关注:金属覆身的机器人接入了OpenAI的大语言模型,能够迅速理解人类的意图并做出相应的动作,包括整理、准确放置物品以及完成一些相对模糊的指令——一名男子对Figure01“给我找个吃的”,机器人略思索后,拿起了桌上的苹果,并递给了他。值得注意的是,桌上还有四散的碗盘、沥水架等,苹果是唯 一一个可食用的物品,这个简单的动作涉及了推理与思考过程,加上之前整理、收纳,机器人展现了完成多个复杂任务的能力。

除了Figure01 外,ChatGPT引领的大模型风潮下,各类引入了LLM的机器人正在涌现:University of Michigan的学者也发布了基于大语言模型,能够更好地理解3D环境的家用机器人。在工业、农业、医疗等领域,可以想象,新型的 机器人会带来很多的新变化。

新型芯片及算法可能会重写垄断格局

目前,在生成式AI的算法方面,呈现NVidia、OpenAI、Microsoft三巨头垄断的格局。不过在我看来,这样的情况也会在技术进展下面临变化。

这并非我一家之言,可以说,几乎是一个行业共识,只是很难预测它具体的时间点。

今年GTC上,Transformer的原作小组首 次聚集,八位作者中的七位与黄仁勋对话,而核心观点就是:Transformer已经够老了,期待看到更新的模型。

作者之一、Cohere的创始人及CEO Gomez评论道:我想看到比Transformer好十倍的模型来替代它……Transformer在内存占用和许多架构方面都有优化的可能性,比如一个非常长的context是很昂贵、无法扩展的,它的parameterization可能不必要那么长 ,我们可以压缩许多倍,带来指数级的缩小。

从仿生学的角度来说,这个观点也很站得住脚——目前算法的功耗算力,跟自然界还有很大差距。

人的大脑功耗几十瓦。昆虫的大脑功耗是毫瓦/微瓦级的,神经元数量极少,也能完成特别复杂的立体视觉、三维控制、捕猎逃生等感知相关的行为。同等情况下,如果让电脑复现小动物在自然界里识别、控制、捕猎、求生的能力,需要更先进的模型,也一定会逐步出现更先进的模型。

而未来更好的算法与模型也很可能意味着更多专用的、小型的芯片会迎来发展。

比如我们此前投资的D-matrix,主打存内计算,预计将在 2024 大规模量产,目前已经有大量订单。另一个模拟计算芯片设计企业Tetramem也备受关注,已经发布了多篇Nature论文,

除此之外,开源的相对小型的transformer 模型(如Microsoft's PHI-2 and Mistral 7B)也会迎来快速发展。在我看来,这些开源的小模型对于AI行业持续、健康的发展是很有必要的。这次AI的热潮与以往的科技潮不同,大公司并未占据所有重要的研究方向——谷歌上市时,许多大学就停止了对搜索算法的研究,因为谷歌已经有了很好的团队和资源来推进搜索算法。而生成式AI则不是,对于研究机构而言,这些开源的小模型中还有很多值得探索的地方,目前所有名校的计算机系也都在积极研究开源模型。

甚至可以说,文初我提到的、未来我们期待的新的算法很可能就会从这些科研人员的工作中涌现。

GenAI发展的背后是人才之争

这个对更新、更好的生成式AI算法的期待,也意味着另一件事:生成式AI的竞争也意味着人才之争。

目前,中美是在AI人才方面占据全球一二位置的两个国家。

从绝 对人数来说,中国占据了第 一位——今年三月,纽约时报报道了一个追踪AI相关人才的报告,中国有着全世界最多的AI本科生人才,而与三年前相比,如今在美国的顶 级AI人才中,中国人的比例也已经超过了美国人。比起过去,这些中国人才在美攻读学位后,也更多地“回流”中国。

当然,美国有着世界数量最多的知名大学,与创新气氛浓厚的科技企业,也孕育出了将LLM石破天惊带入大众视野的Open AI,对各国的AI人才仍旧有着强烈的吸引力。

不可否认,基于天时地利人和等方面考虑,中美牢牢占据了未来AI发展综合最 优的前二宝座。

在这个背景下,还有一个值得注意的趋势:人才的两极分化。

由于AI+ 的杠杆作用越发明显,创立一个优秀的AI企业所需要的技术人才的数量比几年前已经显著减少了。企业接下来对人才的竞争,会越来越集中于少数顶 尖人才的争夺。

无论在硅谷还是在北上杭,我们已经看到顶 级AI人才被高价争抢,而普通大学生找不到工作的这种两极分化,而这样的趋势未来也会更加明显。

Gen AI将成万亿美元市场,投资人如何入局?

从我和我身边的创投从业者的角度看来,我们的共识是Gen AI的未来是光明的——Bloomberg Intelligence报告预测,GenAI将成为未来十年发最迅速的市场之一,市场总量超过万亿美元,复合年增长率超过40%。它变革性的能力会影响各行各业。

对于投资人而言,如果想要投资这个市场,我有以下建议:

首先,投资生成式AI项目,本质上仍旧是在深科技技术中寻找那些具有商业化潜力的项目。投资人最 好能具备AI相关技术背景,并且保持持续学习及市场敏锐度。目前生成式AI的技术变化、突破、市场都在迅速发展。比如此前一些挂着大模型名号的项目,也许在ChatGPT某次更新后就会完全失去市场,能够识别这些项目,可以帮助规避许多风险。

其次,正如文初分析的,目前生成式AI的支柱分为人才/算法、算力、应用/数据三大方向。作为投资人,前两者的投资难度较大,然而应用/数据中,有着大量的未来机遇,可以考虑投资一些相关资源。

比如应用场景和应用场景相关的数据——对于中国投资人来说,半导体 、新能源、先进制造都是不错的方向。以制造业为例,拥有大量垂直行业内的数据,才能做出好的AI,指导未来的先进制造。

从时间上来看,技术上如果不能特别确定 ,也可以等一下商业落地的信息,付出一些增值成本来换取更稳定的信号。

有关AI,这个问题我常听到:AI能最终代替人类吗?

我认为这要从不同尺度上去理解——我们究竟在讨论的是AI从什么程度上在挑战人类进化?如果是生物体层面,这有着百万年以上的积累,是最难的;从人类认知层面,也至少有 10 万年进化横亘在AI面前;而出现数千年的人类语言相对更容易;出现仅 100 年的计算机语言则最简单。

这个问题的答案当然没有定论。不过在这个最终将达万亿美元、改变人类生活的市场里,我很期待看到更多来自华人参与者的身影,不管是创业、投资,还是积极地拥抱生成式AI让生活、工作变得更有效,它将比较罕见地改变我们与世界交互的方式。


推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • HumanizeAI Text:提升AI文本的人性化程度,增强用户互动。

    Humanize AI Text是一个先进的AI文本人性化工具,能够将AI生成的文本转换成更自然、更具人性化的文本,以避免AI检测,并提升内容的吸引力和可读性。它支持多语言,增强了内容的全球可访问性。主要优点包括内容塑形、多语言掌握、可读性提升、写作助手以及实时反馈的人性化得分,帮助用户理解并改进写作的人性化感觉。

  • MagicPublish.ai:为YouTube生成元数据的智能工具

    MagicPublish.ai是一个专注于为YouTube视频内容创建者提供元数据生成服务的在线平台。它通过自动化的方式帮助用户生成视频描述、标签和缩略图,从而提升视频的SEO优化和观众吸引力。产品的主要优点包括操作简便、自动化程度高、能够显著提升视频的在线可见度。

  • AITopRank:发现2024年最佳AI工具

    AI Top Rank是一个专注于AI工具发现和推广的平台,旨在帮助用户发现和使用最新的AI工具,促进AI技术的普及和应用。平台提供每周更新的AI工具排行榜,用户可以投票支持自己喜爱的工具,也可以提交自己的AI工具进行推广。

  • AutoStudio:多轮交互式图像生成技术

    AutoStudio是一个基于大型语言模型的多轮交互式图像生成框架,它通过三个代理与一个基于稳定扩散的代理来生成高质量图像。该技术在多主题一致性方面取得了显著进步,通过并行UNet结构和主题初始化生成方法,提高了图像生成的质量和一致性。

  • Nemotron-4 340B:用于训练大型语言模型的开源合成数据生成管道。

    Nemotron-4 340B是NVIDIA发布的一系列开放模型,专为生成合成数据以训练大型语言模型(LLMs)而设计。这些模型经过优化,可以与NVIDIA NeMo和NVIDIA TensorRT-LLM配合使用,以提高训练和推理的效率。Nemotron-4 340B包括基础、指令和奖励模型,形成一个生成合成数据的管道,用于训练和完善LLMs。这些模型在Hugging Face上提供下载,并很快将在ai.nvidia.com上提供,作为NVIDIA NIM微服务的一部分。

  • Joor:完美的日记应用,记录你的想法。

    Joor是一款日记应用,它允许用户写下自己的想法,并由应用自动处理其余部分。它提供了一个简洁的界面,让用户能够轻松地记录下自己的思考和灵感,同时可能还具备一些自动整理和回顾的功能。

  • Samba:高效无限上下文语言模型的官方实现

    Samba是一个简单而强大的混合模型,具有无限的上下文长度。它的架构非常简单:Samba = Mamba + MLP + 滑动窗口注意力 + 层级MLP堆叠。Samba-3.8B模型在Phi3数据集上训练了3.2万亿个token,主要基准测试(例如MMLU、GSM8K和HumanEval)上的表现大大超过了Phi3-mini。Samba还可以通过最少的指令调整实现完美的长上下文检索能力,同时保持与序列长度的线性复杂度。这使得Samba-3.8B-instruct在下游任务(如长上下文摘要)上表现出色。

  • TC-Bench:视频生成模型的时间组合性评估工具

    TC-Bench是一个专门用于评估视频生成模型的时间组合性的工具。它通过精心设计的文本提示、相应的真实视频以及强大的评估指标来衡量视频生成模型在不同时间点上新概念的出现及其关系转换的能力。TC-Bench不仅适用于文本条件模型,也适用于图像条件模型,能够进行生成性帧插值。该工具的开发旨在推动视频生成技术的发展,提高生成视频的质量和一致性。

  • Promptchains:智能AI工作流构建器,释放AI潜力。

    Promptchains是一个革命性的AI工作流构建器,旨在通过提示链技术解锁AI的潜力。它将复杂任务转化为智能解决方案,实现AI的承诺。产品通过组合AI提示和其他工具到工作流中,使企业能够轻松定制、保存、重用和分享。它超越了AI交互的新奇性,创造了能够与熟练的人类员工并肩工作的解决方案。

  • Sanctuary:个性化冥想引导,由AI驱动,提升专注力,减压助眠。

    Sanctuary是一款利用尖端AI技术为用户提供个性化冥想指导的应用程序。它通过智能学习用户偏好,提供每日更新的冥想内容,帮助用户改善专注力,减少压力,并促进更好的睡眠。该应用拥有超过10万次的个性化冥想创建记录,用户反馈显示,它简化了冥想过程,使冥想变得容易和可访问,对于缓解焦虑和整体压力水平有显著效果。

  • Partnerplace:合作伙伴管理工具,提升合作效率。

    Partnerplace是一款专为合作伙伴关系管理设计的在线工具,它通过自动化繁琐的任务,如佣金处理,帮助企业高效管理和发展合作伙伴网络。该工具支持定制化合作伙伴计划,实现品牌专业体验,并通过集中化平台提高工作效率。Partnerplace的价值观包括弹性、参与度和连接性,旨在为用户提供一个完全定制化的、参与性强的、连接销售团队和CRM系统的合作伙伴管理系统。

  • Depth Anything V2:先进的单目深度估计模型

    Depth Anything V2 是一个经过改进的单目深度估计模型,它通过使用合成图像和大量未标记的真实图像进行训练,提供了比前一版本更精细、更鲁棒的深度预测。该模型在效率和准确性方面都有显著提升,速度比基于Stable Diffusion的最新模型快10倍以上。

  • OTTO SEO by Search Atlas:革命性的AI SEO工具,简化SEO工作流程。

    OTTO SEO是Search Atlas推出的一款AI驱动的SEO工具,旨在通过自动化技术优化网站,提高SEO效率。它通过添加OTTO像素到网站,能够自动执行网页优化,包括技术修复、内容优化、反向链接建设和内容创作。OTTO SEO的主要优点在于节省时间、提高效率,并帮助营销团队或代理公司实现SEO策略的自动化和优化。

  • AI drafts by Help Scout:提升客服团队效率,实现个性化客户服务。

    Help Scout提供的AI客服平台,通过人工智能技术,帮助客服团队提升工作效率,减少重复性工作,让团队成员能够专注于更复杂和个性化的客户对话。平台特点包括无需编程即可使用、快速回复、提升客户满意度,以及通过AI生成回复草稿等。

  • OpenVLA:开源视觉-语言-动作模型,推动机器人操作技术发展。

    OpenVLA是一个具有7亿参数的开源视觉-语言-动作(VLA)模型,通过在Open X-Embodiment数据集上的970k机器人剧集进行预训练。该模型在通用机器人操作策略上设定了新的行业标准,支持开箱即用控制多个机器人,并且可以通过参数高效的微调快速适应新的机器人设置。OpenVLA的检查点和PyTorch训练流程完全开源,模型可以从HuggingFace下载并进行微调。

  • VideoLLaMA 2:视频理解领域的先进空间-时间建模与音频理解模型。

    VideoLLaMA 2 是一个针对视频理解任务优化的大规模语言模型,它通过先进的空间-时间建模和音频理解能力,提升了对视频内容的解析和理解。该模型在多选视频问答和视频字幕生成等任务上展现了卓越的性能。

  • HumanPlus:人类动作模仿与自主技能学习系统

    HumanPlus是一个研究项目,旨在通过模仿人类动作来训练人形机器人,从而实现自主技能学习。该项目通过模拟强化学习训练低级策略,并将这些策略应用到真实世界中,实现实时跟踪人类身体和手部动作。通过影子模仿技术,操作员可以远程操作机器人收集全身数据,用于学习不同任务。此外,通过行为克隆技术,机器人能够模仿人类技能,完成各种任务。

  • Jace:AI助手,助力高效营销与管理。

    Jace是一款商业领域的AI助手,专注于提升营销效率,无需专业技能即可轻松启动和管理营销活动。其主要优点包括创建针对性的营销活动、实时监控性能和随时优化。

  • ARC-AGI:人工智能通用推理测试集

    ARC-AGI是一个旨在测试人工智能系统是否具备类似人类一般流体智力的抽象和推理能力的数据集。它由400个训练任务和400个评估任务组成,每个任务都以JSON格式存储,包括输入输出对。该数据集可以作为人工智能基准测试、程序合成基准测试或心理测量智力测试。

  • PROTEUS:实时表情生成人类模型

    PROTEUS是Apparate Labs推出的一款下一代基础模型,用于实时表情生成人类。它采用先进的transformer架构的潜在扩散模型,创新的潜在空间设计实现了实时效率,并能通过进一步的架构和算法改进,达到每秒100帧以上视频流。PROTEUS旨在提供一种通过语音控制的视觉体现,为人工对话实体提供直观的接口,并且与多种大型语言模型兼容,可定制用于多种不同应用。

今日大家都在搜的词:

热文

  • 3 天
  • 7天