首页 > 传媒 > 关键词  > 机器学习最新资讯  > 正文

写在GTC之后:千亿算力并非生成式AI创业障碍,新型芯片及算法可能会重写垄断格局

2024-05-15 14:00 · 稿源: 站长之家用户

作者:邵旭辉,Foothill Ventures管理合伙人,在机器学习大数据系统软件系统工程领域从事研发和管理工作多年,曾任雅虎广告及大数据平台工程副总裁、Turn CTO及ID Analytics副总裁。他持有清华大学自动化学士学位及明尼苏达大学EECS博士学位。

上个月的GTC后,生成式AI相关的讨论久久不能平息,这个月Gen AI领域刚刚宣布的两个高额融资消息也引发了大量关注:Augment以近 10 亿美金的估值融资2. 27 亿美金,Cognition则以 20 亿美金估值融资1. 75 亿美金。从文字chatbot到视频生成、机器人,生成式AI的能力不断拓展,应用潮已经开始,行业内外,大家都很关心这个话题:AI将会带我们到何处去?

作为AI、深度学习领域多年的从业者,曾经的大公司管理者、创业者以及如今的深科技领域投资人,我在此抛砖引玉,谈谈我对生成式AI发展的个人判断。

本质上,我认为生成式AI的竞争力根植于这三个维度:

一是算力及基础设施,这也是许多大公司优势明显的地方。

二是算法,当然也意味着算法背后的人才。

第三则是数据及应用场景,对创业公司来说,这一部分仍存在着大量机遇。

我们下面可以从这三个维度来生成式AI的未来。

Gen AI并非算力竞赛,创业公司的机会在这些领域

在算力方面,Nvidia是GPU的领头羊、CUDA生态的开创者,具有巨大的优势,但其实,未来的生成式AI并非绝 对以算力定成败。

算力有限的创业公司或者科研机构,机遇主要在哪里呢?

首先,创业公司可以打造生成式AI的基础设施,解决底层的问题。

几乎所有的领域的公司,都在考虑自身在生成式AI方面的竞争策略。在数据隐私/计算安全、

准确性/可靠性、商业逻辑等等领域都会有很碎片化的的要求。而大厂的工具链服务链只能解决一部分需求,其他的就需要初创企业来填补。Lepton.AI、Corvic.AI、Fairly.AI 等都属于这个范畴。这些创业企业搭建了机器学习领域的基础架构,比如Corvic.AI,他们提供的解决方案让复杂数据能较为简便地转化为可用的企业级AI,提供预测分析、AI助手、数据标签等功能。

其次,虽然大公司在算力方面拥有优势,创业公司可以将目光投向专业领域——对于这些领域来说,持续积累的专业数据将会有着不可替代的价值,其中的行业壁垒、合规等方面的积累也能形成一定的护城河。

而更重要的是,不少领域(比如生物医药、网络安全、科研、制造)的底层逻辑和大模型擅长的语言文字视频并不相近,无法直接套用,也不容易简单的做二次开发就能获得好的结果。

从另一个角度来说,大模型也同样打开了许多新机遇,过去一些离商业化较远的领域可能忽然就有前进的动力了,其中往往会有创业公司的机会。

文初提到的AI写代码就是一个新出现的机遇,这两家企业都是近年来发展迅速的AI公司,Cognition的创立时间才刚刚半年。我们也投资了一个同类别的公司Metabob,通过AI来帮助人们找程序中的bug并修复它们。这类企业在AI与软件工程的交叉点找到了自己的市场。

近期机器人的热潮也是个很好的例子。

过去传统机器人往往只能解决单个任务,机器人的传感器、成本投入都有限,也限制了它的发展。

随着LLM的发展,机器人能够在虚拟空间通过强化学习(reinforcement learning)来进行学习、迭代、完成复杂任务,带来了一系列连锁反应——企业愿意开发拥有成本更高、能力更强机器人,这一行业也有了更多的想象空间与投入。斯坦福大学李飞飞教授参与的团队也构建了类似于当年ImageNet的针对虚拟空间训练测试机器人的基于物理模型的大规模训练场景。

今年 3 月,机器人公司Figure与OpenAI合作发布的视频引发了很多关注:金属覆身的机器人接入了OpenAI的大语言模型,能够迅速理解人类的意图并做出相应的动作,包括整理、准确放置物品以及完成一些相对模糊的指令——一名男子对Figure01“给我找个吃的”,机器人略思索后,拿起了桌上的苹果,并递给了他。值得注意的是,桌上还有四散的碗盘、沥水架等,苹果是唯 一一个可食用的物品,这个简单的动作涉及了推理与思考过程,加上之前整理、收纳,机器人展现了完成多个复杂任务的能力。

除了Figure01 外,ChatGPT引领的大模型风潮下,各类引入了LLM的机器人正在涌现:University of Michigan的学者也发布了基于大语言模型,能够更好地理解3D环境的家用机器人。在工业、农业、医疗等领域,可以想象,新型的 机器人会带来很多的新变化。

新型芯片及算法可能会重写垄断格局

目前,在生成式AI的算法方面,呈现NVidia、OpenAI、Microsoft三巨头垄断的格局。不过在我看来,这样的情况也会在技术进展下面临变化。

这并非我一家之言,可以说,几乎是一个行业共识,只是很难预测它具体的时间点。

今年GTC上,Transformer的原作小组首 次聚集,八位作者中的七位与黄仁勋对话,而核心观点就是:Transformer已经够老了,期待看到更新的模型。

作者之一、Cohere的创始人及CEO Gomez评论道:我想看到比Transformer好十倍的模型来替代它……Transformer在内存占用和许多架构方面都有优化的可能性,比如一个非常长的context是很昂贵、无法扩展的,它的parameterization可能不必要那么长 ,我们可以压缩许多倍,带来指数级的缩小。

从仿生学的角度来说,这个观点也很站得住脚——目前算法的功耗算力,跟自然界还有很大差距。

人的大脑功耗几十瓦。昆虫的大脑功耗是毫瓦/微瓦级的,神经元数量极少,也能完成特别复杂的立体视觉、三维控制、捕猎逃生等感知相关的行为。同等情况下,如果让电脑复现小动物在自然界里识别、控制、捕猎、求生的能力,需要更先进的模型,也一定会逐步出现更先进的模型。

而未来更好的算法与模型也很可能意味着更多专用的、小型的芯片会迎来发展。

比如我们此前投资的D-matrix,主打存内计算,预计将在 2024 大规模量产,目前已经有大量订单。另一个模拟计算芯片设计企业Tetramem也备受关注,已经发布了多篇Nature论文,

除此之外,开源的相对小型的transformer 模型(如Microsoft's PHI-2 and Mistral 7B)也会迎来快速发展。在我看来,这些开源的小模型对于AI行业持续、健康的发展是很有必要的。这次AI的热潮与以往的科技潮不同,大公司并未占据所有重要的研究方向——谷歌上市时,许多大学就停止了对搜索算法的研究,因为谷歌已经有了很好的团队和资源来推进搜索算法。而生成式AI则不是,对于研究机构而言,这些开源的小模型中还有很多值得探索的地方,目前所有名校的计算机系也都在积极研究开源模型。

甚至可以说,文初我提到的、未来我们期待的新的算法很可能就会从这些科研人员的工作中涌现。

GenAI发展的背后是人才之争

这个对更新、更好的生成式AI算法的期待,也意味着另一件事:生成式AI的竞争也意味着人才之争。

目前,中美是在AI人才方面占据全球一二位置的两个国家。

从绝 对人数来说,中国占据了第 一位——今年三月,纽约时报报道了一个追踪AI相关人才的报告,中国有着全世界最多的AI本科生人才,而与三年前相比,如今在美国的顶 级AI人才中,中国人的比例也已经超过了美国人。比起过去,这些中国人才在美攻读学位后,也更多地“回流”中国。

当然,美国有着世界数量最多的知名大学,与创新气氛浓厚的科技企业,也孕育出了将LLM石破天惊带入大众视野的Open AI,对各国的AI人才仍旧有着强烈的吸引力。

不可否认,基于天时地利人和等方面考虑,中美牢牢占据了未来AI发展综合最 优的前二宝座。

在这个背景下,还有一个值得注意的趋势:人才的两极分化。

由于AI+ 的杠杆作用越发明显,创立一个优秀的AI企业所需要的技术人才的数量比几年前已经显著减少了。企业接下来对人才的竞争,会越来越集中于少数顶 尖人才的争夺。

无论在硅谷还是在北上杭,我们已经看到顶 级AI人才被高价争抢,而普通大学生找不到工作的这种两极分化,而这样的趋势未来也会更加明显。

Gen AI将成万亿美元市场,投资人如何入局?

从我和我身边的创投从业者的角度看来,我们的共识是Gen AI的未来是光明的——Bloomberg Intelligence报告预测,GenAI将成为未来十年发最迅速的市场之一,市场总量超过万亿美元,复合年增长率超过40%。它变革性的能力会影响各行各业。

对于投资人而言,如果想要投资这个市场,我有以下建议:

首先,投资生成式AI项目,本质上仍旧是在深科技技术中寻找那些具有商业化潜力的项目。投资人最 好能具备AI相关技术背景,并且保持持续学习及市场敏锐度。目前生成式AI的技术变化、突破、市场都在迅速发展。比如此前一些挂着大模型名号的项目,也许在ChatGPT某次更新后就会完全失去市场,能够识别这些项目,可以帮助规避许多风险。

其次,正如文初分析的,目前生成式AI的支柱分为人才/算法、算力、应用/数据三大方向。作为投资人,前两者的投资难度较大,然而应用/数据中,有着大量的未来机遇,可以考虑投资一些相关资源。

比如应用场景和应用场景相关的数据——对于中国投资人来说,半导体 、新能源、先进制造都是不错的方向。以制造业为例,拥有大量垂直行业内的数据,才能做出好的AI,指导未来的先进制造。

从时间上来看,技术上如果不能特别确定 ,也可以等一下商业落地的信息,付出一些增值成本来换取更稳定的信号。

有关AI,这个问题我常听到:AI能最终代替人类吗?

我认为这要从不同尺度上去理解——我们究竟在讨论的是AI从什么程度上在挑战人类进化?如果是生物体层面,这有着百万年以上的积累,是最难的;从人类认知层面,也至少有 10 万年进化横亘在AI面前;而出现数千年的人类语言相对更容易;出现仅 100 年的计算机语言则最简单。

这个问题的答案当然没有定论。不过在这个最终将达万亿美元、改变人类生活的市场里,我很期待看到更多来自华人参与者的身影,不管是创业、投资,还是积极地拥抱生成式AI让生活、工作变得更有效,它将比较罕见地改变我们与世界交互的方式。


推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • BNA:多功能AI超级应用,涵盖社交、电商、娱乐和教育。

    BNA AI Super App是一款集成了多种智能服务的超级应用,它不仅提供社交功能,如分享帖子、写博客、聊天和视频通话,还涵盖了AI电商和娱乐服务。此外,该应用还提供40种语言的AI教学服务,帮助用户学习不同的语言。BNA AI Super App以其强大的AI功能和多语言支持,满足了不同用户群体的需求。

  • Elisi:高效能自主层级式计划助手

    Elisi 是一款旨在帮助用户实现个人成长的终极组织者和指南。它通过直观的设计和用户友好的说明,帮助用户将梦想转化为清晰的结果,分解成可实现的里程碑,并通过AI技术理解并适应用户的个人需求,确保每一天都更有条理和高效。Elisi 致力于提供便捷服务,主要功能套件完全免费。

  • Omi AI:个性化AI助手,记录每一刻,与AI对话获取反馈。

    OMI APP是一个任务驱动的个性化AI助手,旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本,提供提醒、建议等功能,同时注重用户隐私。

  • MeowMail:高送达率的AI电子邮件营销工具

    MeowMail是一款集成在Shopify后台的电子邮件营销应用,利用AI技术自动选择最佳发送时间,提高邮件的送达率至98%以上。它支持拖放编辑、从Klaviyo导入邮件列表、使用Beefree编辑器创建新邮件,并通过设定支出限制来管理邮件营销活动。MeowMail还提供企业级支持和自动翻译文本功能,帮助商家以低成本实现高效的邮件营销。

  • Maia 100:微软定制AI加速器,专为大规模AI工作负载设计。

    Maia 100是微软为Azure设计的首款定制AI加速器,专为大规模AI工作负载而打造,通过软硬件的协同优化,实现了性能、可扩展性和灵活性的最大化。它采用了TSMC N5工艺和COWOS-S互连技术,具备高达1.8TB/s的带宽和64GB的容量,支持高达700W的热设计功耗(TDP),但以500W运行,确保了高效的能效比。Maia 100集成了高速张量单元、向量处理器、DMA引擎和硬件信号量,支持多种数据类型和张量切分方案,并通过以太网互连支持大规模AI模型。此外,Maia SDK提供了丰富的组件,支持快速部署PyTorch和Triton模型,并通过双编程模型确保高效的数据处理和同步。

  • LTM:超长上下文模型,革新软件开发

    Magic团队开发的超长上下文模型(LTM)能够处理高达100M tokens的上下文信息,这在AI领域是一个重大突破。该技术主要针对软件开发领域,通过在推理过程中提供大量代码、文档和库的上下文,极大地提升了代码合成的质量和效率。与传统的循环神经网络和状态空间模型相比,LTM模型在存储和检索大量信息方面具有明显优势,能够构建更复杂的逻辑电路。此外,Magic团队还与Google Cloud合作,利用NVIDIA GB200 NVL72构建下一代AI超级计算机,进一步推动模型的推理和训练效率。

  • EZ-work AI文档翻译:智能AI翻译,高效文档语言转换助手。

    EZ-work AI文档翻译是一款专注于文档翻译的在线服务,支持多种语言的翻译,包括中文、英语、日语、俄语、阿拉伯语和西班牙语等。它使用先进的AI技术,如gpt-4o-mini和deepseek-chat模型,为用户提供快速、准确的翻译服务。该产品适用于需要文档翻译的个人和企业,尤其在国际交流和学术研究领域尤为重要。

  • Watson AI:会议助手,自动记录并总结会议要点。

    Watson AI是一款会议助手应用程序,它通过录制系统音频和麦克风来转录和总结会议内容,自动提取行动项和会议摘要,帮助用户更高效地进行会议记录和回顾。

  • PicTech AI: 免费在线AI图片翻译 助力跨境电商

    PicTech AI是由学以致用科技旗下的智能图像工具品牌,专注于为跨境电商提供AI驱动的图片翻译服务。该产品利用人工智能技术,实现高准确率和高清晰度的图片翻译,支持中文、英语到日语、韩语等多国语言的翻译。PicTech AI的智能抠图功能,能够准确检测图片主体边缘,一键去除背景,无需专业编辑。产品背景信息显示,其团队由来自百度、网易、阿里巴巴等行业巨头的顶尖高科技人才组成,具备强大的技术实力和产品能力。该产品定位于帮助跨境电商从业者简化工作流程,提高效率,无需懂外语或图像处理技能即可使用。

  • AnythingLLM:一站式AI应用,支持多种文档和模型。

    AnythingLLM是一个多功能的桌面客户端,支持多种语言模型(LLM)和文档类型,提供完全私密的使用体验。用户可以根据自己的需求选择企业级模型、自定义模型或开源模型,如GPT-4、Llama、Mistral等。产品支持一键安装,本地运行,无需互联网连接,保护用户隐私。

  • 林哥的大模型野榜:更适合中国宝宝体质的大模型产品排行榜

    林哥的大模型野榜是一个专注于中国用户需求的大模型产品排行榜,提供了多维度的评估和排名,帮助用户更好地了解和选择适合的大模型产品。

  • Fluximg.com:AI文本到图像生成器,支持多尺寸和自动翻译。

    Fluximg.com是一个基于Flux模型的AI图像生成网站,提供从文本到图像的转换服务。它支持多种语言,包括中文和英文,并且具有用户友好的界面。网站提供免费和专业版本,使用户能够根据自己的需求选择不同的服务级别。

  • 现代文转古文:将现代汉语转化为古汉语,提升文采。

    现代文转古文是一款能够将现代汉语自动转换为古汉语的模型,它通过先进的自然语言处理技术,使得用户可以轻松地将现代文本转换成具有古典韵味的古文。这种转换不仅能够增加文本的文学价值,还能在教育、文学创作、文化传承等方面发挥重要作用。

  • Zamba2-mini:先进的小型语言模型,专为设备端应用设计。

    Zamba2-mini是由Zyphra Technologies Inc.发布的小型语言模型,专为设备端应用设计。它在保持极小的内存占用(<700MB)的同时,实现了与更大模型相媲美的评估分数和性能。该模型采用了4bit量化技术,具有7倍参数下降的同时保持相同性能的特点。Zamba2-mini在推理效率上表现出色,与Phi3-3.8B等更大模型相比,具有更快的首令牌生成时间、更低的内存开销和更低的生成延迟。此外,该模型的权重已开源发布(Apache 2.0),允许研究人员、开发者和公司利用其能力,推动高效基础模型的边界。

  • InterTrack:无需对象模板的人体与物体交互跟踪技术

    InterTrack 是一种先进的跟踪技术,能够在单目RGB视频中跟踪人体与物体的交互,即使在遮挡和动态运动下也能保持跟踪的连贯性。该技术无需使用任何对象模板,仅通过合成数据训练即可在真实世界视频中实现良好的泛化。InterTrack 通过分解4D跟踪问题为每帧的姿态跟踪和规范形状优化,显著提高了跟踪的准确性和效率。

  • GenWarp:生成新视角的图像,保持语义信息。

    GenWarp是一个用于从单张图像生成新视角图像的模型,它通过语义保持的生成变形框架,使文本到图像的生成模型能够学习在哪里变形和在哪里生成。该模型通过增强交叉视角注意力与自注意力来解决现有方法的局限性,通过条件化生成模型在源视图图像上,并纳入几何变形信号,提高了在不同领域场景下的性能。

  • Qwen2-VL:新一代视觉语言模型,更清晰地看世界。

    Qwen2-VL是一款基于Qwen2打造的最新一代视觉语言模型,具备多语言支持和强大的视觉理解能力,能够处理不同分辨率和长宽比的图片,理解长视频,并可集成到手机、机器人等设备中进行自动操作。它在多个视觉理解基准测试中取得全球领先的表现,尤其在文档理解方面有明显优势。

  • Dressplay:个性化服装生成器,轻松变换你的装扮。

    Dressplay是一个创新的在线服装生成器,允许用户通过简单的步骤生成个性化的服装。它利用先进的图像处理技术,让用户能够选择服装区域、目标人物以及想要穿戴的服装,从而创造出逼真的服装效果。Dressplay背后的技术不仅提高了服装设计的效率,也为用户提供了一种全新的个性化体验。目前,Dressplay提供免费试用,用户可以通过网页访问并体验其功能。

  • GLM-4-Plus:国际领先的语言理解与长文本处理大模型。

    GLM-4-Plus是智谱推出的一款基座大模型,它在语言理解、指令遵循和长文本处理等方面性能得到全面提升,保持了国际领先水平。该模型的推出,不仅代表了中国在大模型领域的创新和突破,还为开发者和企业提供了强大的语言处理能力,进一步推动了人工智能技术的发展和应用。

  • Playground:专业的设计工具,让设计变得简单有趣。

    Playground是一个专业的在线设计平台,它提供了丰富的设计资源和工具,包括贴纸、壁纸、海报、T恤设计和社交帖子设计等。用户可以轻松地创建个性化的艺术作品,无论是个人使用还是商业用途。该平台以其易用性、丰富的设计元素和创新的设计理念,满足了不同用户的设计需求。

今日大家都在搜的词: