首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

李开复、张亚勤对谈:大模型产业化,To B、To C哪个赛道更有机会?

2024-06-15 16:08 · 稿源: TechWeb.com.cn

6月15日消息,在第六届“北京智源大会”上,零一万物CEO、创新工场董事长李开复博士,中国工程院院士、清华大学智能产业研究院(AIR)院长张亚勤院士、智源研究院理事长黄铁军教授,三位行业领袖大模型的成功因素、面临的挑战、产业化场景等多个热点话题展开了深入的讨论。

以下为讨论内容部分摘录:

一、什么原因使得大模型如此成功?

黄铁军:近期关于大模型的讨论特别热门,从刚才的报告大家也感受到了大模型的能量以及其在各领域的应用潜力,可以说大模型是至今为止人工智能发展最成功的一个技术方向。想请问两位,是什么原因使得大模型如此成功?还有哪些欠缺的地方需要进一步发展?

李开复:AI 2.0是有史以来最伟大的科技革命和平台革命,大模型Scaling Law 的重要性在这个时代得以凸显——人类能够用更多计算和数据不断增加大模型的智慧,这条被多方验证的路径还在推进中,还远没有触达天花板,这点也让大家非常振奋。

第二,大模型的智慧来自于接近无损的压缩,这点也非常重要。上世代的人工智能从业者很难想到今天会把压缩和智能连接在一起。因为Scaling Law过程中不能盲目堆更多的GPU,所以需要有一个方法评估我们有没有越做越好或者哪个方法做得更好。零一万物内部有严谨的方法论,用压缩的理念去评估,让以往漫无目的“炼丹”训模过程变得更系统也更有科学和数学根据。

大模型正面临着一些挑战。比方说,如果“仅仅用更多算力就能把它往前推动”是主要方向的话,就会导致只有那些GPU资源丰富的公司和国家能够在这方面胜出。但话说回来,我们已经验证了,很多国内大模型在部分案例里接近或者打平、或者偶尔超过美国的大模型。所以我认为需要专注的是算法和工程创新一体化的推进,以及怎么以这种能力避免进入“盲目堆算力推动模型性能提升”的状态。

当然,目前大模型还直面许多挑战。就像每个技术刚诞生都会有问题,起初大模型也不知道最近一年发生了什么。还有记忆的问题、窗口构成的问题、幻觉问题等等,但我们可以看到的是,当全球如此多聪明的大脑涌入这个领域后,大部分问题不能说被完美地解决,但是都在逐步被攻克的过程中,所以我对大模型的未来相当乐观。

张亚勤:我讲“三个做对了”的和“三个需要改进”的 。

“三个做对了”的点是,首先,规模定律Scaling Law。规模定律的实现,主要得益于对海量数据的利用以及算力的显著提升。再加上现在的Diffusion和Transformer架构能够高效地利用算力和数据,使得“飞轮效应”得以正循环。尽管有人质疑Scaling Law在2到3年后是否仍然有效,但我个人认为至少在未来5年里,它仍将是产业发展的主要方向。

其次是“Token-Based”统一表述方式。在大模型中,“Token”是一个基本元素。无论是文本、语音、图像、视频,还是自动驾驶中的激光雷达信号,甚至是生物领域的蛋白质和细胞,最终都可以抽象为一个Token。Token之间的训练、学习和生成是核心环节,这与我们大脑中的神经元工作原理相似,无论执行何种任务,其基础机制都是相同的。

最后是通用性。这与Token紧密相关。现在的通用性不仅体现在文本处理上,还扩展到了多模态领域,甚至可以生成如蛋白质等复杂结构。此外,它在物理世界(如具身智能)和生物世界(如生物智能)中也有着广泛的应用前景。以上这三个是大模型做对的。

现阶段主要问题呢,第一个是效率较低。特别是大模型的计算效率低下问题,与人类大脑的高效性形成了鲜明的对比。

人类大脑拥有860亿个神经元,每个神经元又有数千个突触连接,却只需要20瓦的能量,重量还不到三斤;而GPT-4这个万亿参数模型则需要巨大的算力和能源,与人脑相比相差1,000倍之多。

此外,人脑能够根据不同的情境灵活调用不同区域的神经元,而大模型却每次输入一个问题都要调用和激活几乎大量参数。

因此,如何借鉴人类大脑的计算方法,在降低计算耗能、提高效率方面进行探索和创新,是一个值得关注的方向。

第二个,大模型目前还未能真正理解物理世界,相关的推理能力、透明性以及开复刚才提到的幻觉等问题都还在深入研究中。

有一个重要的问题是,即使我们的大模型做得再好,它在生成式表述与对真实世界的描绘之间仍存在矛盾。因此,我们需要探索如何将生成式的概率大模型与现有的“第一性原理”或真实模型、知识图谱相结合。

目前,虽然已经有了一些尝试,如采用RAG技术或进行微调,并取得了一定的进展,但我认为这些方法并非根本解决方案。我预测,在未来五年内,将会有一个全新的架构出现,这个架构有望取代目前的Transformer和Diffusion模型。

第三个欠缺的地方是边界问题。现在大模型无法知道“我不知道什么”,这是目前要解决的问题,是它的边界效应。

黄铁军:谢谢亚勤的“三个做对了”和“三个不足”。

刚才开复老师没讲,我想再追加问一下,有些人认为大模型是一个实践、是一个工程,是经验主义做的东西,没有理论基础,说得不好听叫“不靠谱”,不知道你怎么看这个问题?

李开复:我觉得科学和工程缺一不可。如果只做工程,不了解“第一性原理”,没有数学的根据、没法评估不同路径的效果,考虑到高昂的算力成本,这样的摸索肯定是做不出一个好模型的。但是如果只是在实验室里雕花,期待有工程人才把自己的论文做成产品,这也是不行的。

零一万物的经验是,每个做AI、做模型的Researcher要懂Infrastructure、都要懂推理、都要知道成本的问题。这样当你需要面对科研问题时,就知道在产品里需要的反应速度有多快,要怎么实现,做完实验就能确保模型可以得到令人满意的工程结果。训练模型的过程中绝对不只是写Paper,还要同时考虑怎样系统化、工程化地做数据工程,因为数据的训练、数据的筛选是非常重要的。还有底层的AI Infrastructure,GPU这么昂贵,如果把一张当成两张、三张使用,任何公司都会得到好处,所以科技和工程这两方面缺一不可。

二、大模型产业化To B、To C哪个赛道更有机会?

黄铁军:大家关心AI2.0,大模型产业化最大的场景在哪里?移动互联网这么多年,To B、To C ,这两个大赛道哪个更有机会?为什么?

李开复:简单来说,在中国To C 短期更有机会,国外两者都有机会。To C方面,就像移动互联网、PC时代里,一个新技术、新平台带来新应用,大模型同样如此,这是巨大的机会,但是这些应用的出现一定是按部就班的。

我认为AI 2.0 时代会和PC、移动互联网时代一样,第一个阶段应该是生产力工具,包括信息获取;第二个阶段可能会是娱乐、音乐、游戏,第三个阶段可能会是搜索;再下一个阶段可能会是电商;然后可能会有社交、短视频、O2O的应用出现。

一个理由就是刚开始应用要能够赚钱、能够解决问题,所以第一波潮流会是生产力工具,但越往后,难度越高——高用户量的应用商业模式往往是先堆积用户再找变现模式,所以应用成本一定要很低,试错难度很大、所需要的投资也更多。

我认为递进的模式不会有特别大的改变,To C应用会从生产力工具一步步走向短视频类应用。To C确实会产生大量的用户,但这不是说不能用大模型来做产品,只是在普及顺序上会按照这六个阶段进行。

当然,这个过程中也有挑战,在大模型领域做应用跟PC、互联网时代不一样,因为推理成本还太贵。最近零一万物提出了TC-PMF概念(技术成本✖️产品市场契合度),这个概念是指,当你考虑PMF时,还要把技术的需求、实现难度和成本考虑进去。

做应用一定要考虑到刚才这六个阶段谁先谁后、什么时候做、提早做。第二,做应用的时候还要综合考虑到当时的技术够不够好,成本是否足够低,所以大模型To C应用不像过去移动互联网时代,产品经理一个人就可以做主,它需要做Infrastructure、做推理引擎的人、一起打磨TC-PMF。这件事难度高,但是回报也高,机会也更大。最后我想讲,在To C方面,我不相信技术可以永久领先,事实上技术带来的领先窗口非常短暂,一旦巨头看到你验证了PMF,他们会有很多方法超越你。一旦你验证了TC-PMF,要把握时间窗口把品牌打出来,最终胜出的To C应用不只是需要有技术优势,还需要在时间窗口内打造持续优势,比如品牌优势,比如社交链,比如用户数据,让用户不能离开你这个平台。在微信强大的时代里抖音能被做出来,就是因为它抓住了这个时间窗口。

再讲一下To B的应用。大模型有可能在To B方向上带来更大价值,而且能够比To C更快实现,但是To B这个领域有几个挑战。

第一个挑战是大公司、传统公司不是很敢采取颠覆式技术,大公司会习惯每年增长5%预算,做和去年一样的事情。

第二个挑战在中国比较严重,许多大公司没有认识到软件的价值,为软件付费意的意识有待进一步提高。现在有许多大模型公司在竞标时越竞越低,做到最后做一单赔一单,都没有利润。我们在AI 1.0时代曾见过这个现象,现在它在AI 2.0时代又重现了。这种心态导致部分大公司只愿支付很低的价格,大模型公司也只能给出折中的方案,达到惊艳效果的寥寥无几。

零一万物坚决做To C,不做赔钱的To B,而是做能赚钱的To B。所以零一万物在To B方面精挑细选,找那种公司上下都愿意拥抱新概念的公司,也为它们设计了 RAG 知识检索、专有云、微调等方案,在国内国外都有尝试。无论To C还是To B,API都很重要,最近国内很多模型降价了,零一万物也推出了接入国际SOTA成绩Yi-Large大模型的API,也希望有机会可以跟各位合作。这个API背后的模型能力大概接近GPT-4o,但是价格是GPT-4的四分之一,我相信这可以帮助更多公司或者创业者达到所谓的TC-PMF。

黄铁军:谢谢开复老师对To B、To C的分析,很透彻。亚勤,刚才关于To B的观点,大家还有一个非常关心的问题,大模型产业的最大场景会在哪里?To B、To C在什么地方能够落地发挥作用?

张亚勤:在应用和服务层面,先面向消费者(To C)再面向企业(To B)。To B的周期相对较长,而To C的应用产品则可以迅速推出,这与过去的PC互联网和移动互联网的发展路径基本一致。在基础设施层,目前真正盈利的主要集中在To B领域,特别是在芯片、硬件、服务器等。像英伟达、AMD等芯片制造商,以及服务器、HBM存储、InfiniBand和NVLink等相关技术的提供商,他们目前是盈利最多的。

关于AI路径,我在过去十年中一直强调三个关键领域:首先是信息智能,其次是物理智能(现在流行的术语是具身智能),最后是生物智能。在具身智能阶段,To B的应用可能会比To C更快落地。然而,在生物智能阶段,情况可能相反,To C的应用可能会先于To B出现。尽管每个领域的具体情况可能有所不同,但总体来看,无论是To C还是To B,都将存在开源模型、商业闭源模型、基础大模型,以及针对垂直行业模型和边缘模型。

举报

  • 相关推荐
  • 大家在看
  • NinjaRIP:AI驱动的文档处理工具,快速准确。

    NinjaRIP是一款AI驱动的文档处理服务,它通过先进的机器学习模型来识别模式和提取有意义的信息,从而简化文档工作流程。它以99%以上的准确率在文档识别和数据提取方面提供无与伦比的精确度,确保了数据的可靠性和可信度。NinjaRIP在beta阶段免费提供,一旦过渡到正式版,将提供不同业务需求的定价计划,价格透明且具有竞争力。

  • DeepL Chrome扩展:在Chrome浏览器内翻译阅读或书写的内容

    DeepL Chrome扩展是一款由全球最精确的人工智能翻译器支持的浏览器插件,它允许用户在Chrome浏览器中即时翻译阅读或书写的内容。它利用神经网络和人工智能技术,能够捕捉最细微的差别,提供比同行业竞争对手更准确的翻译结果,准确度高达三倍以上。

  • 豆包浏览器插件:浏览器AI助手,提升工作学习效率

    豆包浏览器插件旨在通过AI技术提升用户的工作效率和学习效率。它具备快速视频与一键从网页、PDF和视频中总结并生成亮点的功能,同时支持在网页任意地方划词进行全方位AI搜索。此外,它还提供全文对照翻译功能,帮助用户在阅读外文资料时更轻松地理解内容。豆包插件的设计理念是将AI技术与日常使用场景相结合,让用户在进行网页浏览、文档阅读和视频观看时能够更加便捷地获取信息和知识。

  • 聚好用AI:一站式创意平台,激发无限创意。

    聚好用AI是一个集成了多种创意工具的在线平台,旨在帮助用户快速生成和编辑各种创意内容。它结合了AI技术,使得设计、绘画、音乐创作等变得更加简单和高效。平台的主要优点在于其易用性、高效性和创新性,能够满足不同用户在创意表达上的需求。聚好用AI背后的技术团队拥有丰富的行业经验,致力于通过AI技术推动创意产业的发展。目前,该平台提供免费试用,但部分高级功能可能需要付费。

  • E象:AI技术助力电商,提升运营效率

    E象 HiDream.ai 是一家专注于电商行业的AI技术公司,通过人工智能技术提供高质量的商品图,帮助商家提高商品上架和运营活动的效率。产品通过AI技术替代传统拍摄,降低成本,提升人效,缩短上架时间。主要技术包括AI生成商品图、模特效果图、商品视频生成等,适用于跨境电商和本地电商。

  • HackerPulse.io:开发者成长助手

    HackerPulse 是一个专门为开发者设计的个人资料聚合平台。它通过整合 GitHub、LinkedIn 等多个开发者常用的平台数据,帮助开发者构建一个全面的个人资料。这个平台不仅可以展示开发者的技能和成就,还能识别技能差距和提升空间,从而支持开发者的职业成长。

  • SuperCoder 2.0:开源自主软件开发系统

    SuperCoder 2.0是一个开源的自主软件开发系统,利用大型语言模型(LLMs)和大型动作模型(LAMs)针对Python代码生成进行微调,以实现更高精度的一次性或少次编程。它结合特定于开发框架的软件护栏,如Flask和Django,与SuperAGI的通用智能开发代理一起,提供复杂的现实世界软件系统。SuperCoder 2.0还确保了您的知识产权和代码免受AI相关的滥用,并与现有的开发栈如Jira、Github或Gitlab、Jenkins、CSPs以及QA解决方案如BrowserStack/Selenium Clouds深度集成,确保无缝的软件开发体验。

  • Llama Tutor:个性化AI教学助手,学习更高效

    Llama Tutor是一个基于Llama 3.1和Together AI的个性化AI教学助手,旨在为用户提供定制化的学习体验。它完全开源,用户可以在GitHub上找到相关代码并进行个性化的调整。该产品通过用户输入的学习主题和教育水平,生成个性化的学习计划,帮助用户更高效地掌握知识。

  • HoloDreamer:从文本描述生成全息3D全景世界

    HoloDreamer是一个文本驱动的3D场景生成框架,能够生成沉浸式且视角一致的全封闭3D场景。它由两个基本模块组成:风格化等矩形全景生成和增强两阶段全景重建。该框架首先生成高清晰度的全景图作为完整3D场景的整体初始化,然后利用3D高斯散射(3D-GS)技术快速重建3D场景,从而实现视角一致和完全封闭的3D场景生成。HoloDreamer的主要优点包括高视觉一致性、和谐性以及重建质量和渲染的鲁棒性。

  • MusiConGen:基于Transformer的文本到音乐生成模型

    MusiConGen是一个基于Transformer的文本到音乐生成模型,它通过时间条件增强对节奏和和弦的控制。该模型从预训练的MusicGen-melody框架中微调而来。它使用符号表示的和弦和节奏控制,并结合五种不同风格的文本描述来生成样本。生成样本的和弦通过BTC和弦识别模型进行估计,如论文中所述。

  • PixVerse V2:轻松创建视觉冲击的视频内容。

    PixVerse V2是一个革命性的更新,它赋予每个用户轻松创建令人惊叹的视频内容的能力。使用V2,您可以轻松制作视觉冲击力强的电影,甚至可以加入现实世界中不存在的元素。主要优点包括模型升级、画质提升、剪辑间的一致性等。

  • KLING AI:激发你的想象力,开启创意生产的新时代。

    KLING AI是快手可灵的国际版,是一个以AI技术为核心的创意生产平台,提供AI图像和视频生成服务。其背后的技术由KOLORS和KLING提供支持,旨在通过先进的算法快速生成高质量的视觉内容,帮助用户实现创意想法,提升生产效率。

  • Comfy Deploy:快速部署AI应用的协作平台

    Comfy Deploy是一个面向产品团队的开源平台,专注于将ComfyUI工作流程快速转化为生产就绪的API。它提供了一键部署API、强大的管理GPU支持、任何模型和自定义节点的安装,以及无需自托管即可享受的ComfyUI的强大功能。该平台通过简化复杂流程,帮助团队协作、迭代和部署AI应用,显著提高了生产效率。

  • NVIDIA AI Foundry: 提供定制化的 AI 模型和解决方案。

    NVIDIA AI Foundry 是一个平台,旨在帮助企业构建、优化和部署 AI 模型。它提供了一个集成的环境,使企业能够利用 NVIDIA 的先进技术来加速 AI 创新。NVIDIA AI Foundry 的主要优点包括其强大的计算能力、广泛的 AI 模型库以及对企业级应用的支持。通过这个平台,企业可以更快速地开发出适应其特定需求的 AI 解决方案,从而提高效率和竞争力。

  • HeyGen Interactive Avatar:在线创建AI虚拟形象视频,实时互动。

    HeyGen Interactive Avatar是一个在线AI视频生成器,专注于创建和优化虚拟形象视频,支持实时互动。它允许用户创建一个为连续流媒体优化的虚拟形象,同时提醒用户保持头部和手部的最小动作。HeyGen的背景信息包括与Baron David和Ryan Hoover等知名人士的合作,产品目前处于Beta测试阶段,提供免费试用。

  • Adobe Firefly Vector AI:创意生成AI工具

    Adobe Firefly Vector AI是Adobe推出的一系列创意生成AI模型,旨在通过生成AI功能增强创意工作。Firefly模型和服务于Photoshop、Illustrator、Lightroom等Adobe创意应用中。它通过文本到图像、生成填充、生成扩展等功能,帮助用户以前所未有的控制力和创造力生成丰富、逼真的图像和艺术作品。Firefly的训练数据包括Adobe Stock的授权内容、公开许可内容和公共领域内容,确保其商业使用安全。Adobe致力于负责任地开发生成AI,并通过与创意社区的紧密合作,不断改进技术,支持和提升创意过程。

  • Jelled.ai:使用AI数字孪生优化职场沟通

    Jelled.ai是一个利用人工智能技术来提升职场沟通效率的平台。它通过创建用户的数字孪生,帮助用户从Gmail和Slack等主要通信渠道中提取、总结关键信息,并生成及时、知情的邮件草稿。数字孪生能够学习用户的邮件回复模式,节省时间和精力。此外,它还提供了即时回复、智能代理聊天、消息审查等功能,帮助用户有效管理日常沟通。Jelled.ai致力于保护用户数据安全,通过年度安全审计和符合Google API服务用户数据政策的措施,确保数据安全。

  • Mock Interviews with AI:AI驱动的模拟面试,提升求职成功率。

    Mock Interviews with AI 是一款由Invue AI提供的职业面试准备平台,它通过AI技术模拟真实面试场景,提供即时反馈和个性化建议,帮助求职者提高面试技巧和自信心。产品背景基于36,000+求职者的使用经验,由专业团队设计,旨在帮助用户在面试中取得成功。产品提供基础和高级两个版本,基础版免费,高级版提供更多功能和服务。

  • Lokal.so:本地开发工具,支持远程访问和AI辅助

    Lokal.so 是一款本地开发工具,旨在简化本地开发环境的设置和使用。它通过提供多种功能,如本地隧道服务、AI 助手、S3 兼容服务器等,帮助开发者更高效地进行本地开发和调试。主要优点包括:1. 支持通过公共和 https .local 地址共享本地主机。2. 提供自托管的本地隧道服务器,确保隐私和自由。3. 利用 Cloudflare 的全球网络加速网站交付。4. 内置 AI 助手,可以与隧道流量交互,生成代码,回答与流量内容相关的问题。5. 提供无限的 .local 域名,支持局域网内的访问。6. 内置 S3 兼容服务器,方便文件存储和调试。7. 支持 JSON 到语言模式的自动转换,简化开发流程。

  • ScanIt:轻量级、快速、无广告的文档扫描应用

    ScanIt是一款专为iPhone和iPad设计的文档扫描应用,以其轻量级、快速、无广告的特点,为用户提供了一种简单高效的文档数字化解决方案。它拥有智能文档识别、曲面调整和文本提取(OCR)等专业功能,支持多种格式导出,并能安全加密文档,满足不同用户对扫描效率和安全性的需求。

今日大家都在搜的词: