首页 > 传媒 > 关键词  > 正文

端侧模型打响突围战!VC 疯抢,又一创企“杀”出

2024-07-01 10:37 · 稿源: 站长之家用户

6月,三笔巨额融资掀开大模型战事新篇章。

前脚,加拿大 Cohere 以50亿美元估值揽获4.5亿美元融资,英伟达、思科助力;后脚,法国 Mistral AI 喜提6亿欧元,General Catalyst 领投;随后,日本 SakanaAI 也传出即将斩获超1亿美元融资,估值飚至约11.5亿美元。

春江水暖鸭先知,国际 VC 押注各地 AI 独角兽强势出圈背后,一个共性趋势随即浮现:PK OpenAI,他们正以小参数、低成本落地端侧“突围”。

Cohere 开源的新一代大模型 Aya23,以80亿和350亿两种参数,支持23种语言;

Mistral AI 去年发布的 Mistral7B,以70亿参数打败了数百亿参数的开源大语言模型霸主 Llama2,另一款模型 Mistral Large 开发成本低于2000万欧元(约2200万美元),对比 GPT-4的开发成本,更是打掉了超4/5;

再到 Sakana 这边,其以核心的“模型合并”技术来自动化“进化”算法,号称对算力资源的需求极小、能将数据学习周期缩短数百倍。

群雄逐鹿之下,这场 AI 盛宴行至2024,已然不再是一场堆算力、垒数据的“烧钱”游戏。

寻找 Transformer 外的可能,“天选”端模来了

身处大模型一线,近半年,刘凡平对底层技术架构的创新和突破这一趋势有着明显的直接感受。

“在全球范围内,一直以来都有不少优秀的研究者试图从根本上解决对 Transformer 架构的过度依赖,寻求更优的办法替代 Transformer。就连 Transformer 的论文作者之一 Llion Jones 也在探索‘Transformer 之后的可能’,试图用一种基于进化原理的自然启发智能方法,从不同角度创造对 AI 框架的再定义。”

他看到,技术变化永远走在最前面,需要时时刻刻保持“不被颠覆”的警惕,但一方面,这个80后创业者看到新技术带来新产品、新市场机遇的出现,又对行业利好倍感兴奋。

在这场对标 OpenAI 的竞赛中,刘凡平也早就做好了准备,其带队的 RockAI 亦走出了一条属于自己的进化路径。

自成立伊始,RockAI 就不曾是 Transformer 学徒,即便是在“百模大战”打得火热的去年,刘凡平就意识到 Transformer 架构底层设计逻辑对训练数据量的要求极大,虽是大模型的智能体现,却难以避免“一本正经的胡说八道”的幻觉问题,包括训练的资源消耗已成行业通病。

甚至连 Transformer 这个架构的设计者 Aidan Gomez,都对“做了很多浪费的计算”一声叹息,希望“Transformer 能被某种东西所取代,将人类带到一个新的性能高原。”

可谓,成也萧何败也萧何。

但更大的挑战在于,Transformer 在实际应用中的高算力和高成本,让不少中小型企业望而却步。其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大模型在某些关键领域和特殊场景的广泛应用。

在行业对于有效能、低能耗 AI 大模型的需求不断增长下,彼时,刘凡平就一直在思考“大模型动辄上万亿的 token 训练是否真的必要”,对 Transformer 模型不断的调研和改进过程中,更让他意识到了重新设计大模型的必要性。

以人类大脑几十亿的训练量来看,他判断,数据、算力并不是最终的瓶颈,架构、算法才是重要的影响因素,就此开启了 RockAI“破坏式”自研突围。

1月,刘凡平带着国内首 个非 Attention 机制的通用自然语言大模型——Yan1.0模型公开露面。

当时,1.0版通过对 Attention 的替换,将计算复杂度降为线性,大幅降低了对算力的需求,用百亿级参数达成千亿参数大模型的性能效果——记忆能力提升3倍、训练效率提升7倍的同时,实现推理吞吐量的5倍提升。

更令人欣喜的是现场,Yan1.0模型在个人电脑端的运行推理展示,证实了其可以“原生无损”在主流消费级 CPU 等端侧设备上运行的实操性。

要知道,原生无损对应的反面就是有损压缩,后者是目前大模型部署到设备端的主流方式。

大热的 AIPC 是把 Transformer 架构的模型通过量化压缩部署到了个人电脑,甚至70亿参数的大模型还需要定制的 PC 芯片提供算力;就连 Llama38B 以每秒1.89个 token 的速度运行树莓派5,支持8K 上下文窗口的战绩,也是止步于“有损压缩”。

更大的模型效果更好,但是如果不通过量化压缩是部署不到个人设备上的,恰好说明了 Scaling law 的局限。

同时,有损压缩如同把平铺的纸揉小后有褶皱般放入,让多模态下的性能损失无法恢复到原有状态去进行模型训练,更直接导致卡住不动、死机等不确定问题的出现,甚至三五分钟才能蹦完一句话。

“去”量化压缩这一步意味着 Yan 模型在设备端运行避开了多模态下的性能损失,以及具备再学习的能力,也就是说在兼容更多低算力设备上,是“天选级”端侧模型。

同步学习,让模型边跑边进化

“原生无损”部署到个人电脑,这只是 Yan1.0的表现。

刘凡平还有2个疑问待解,一是能不能在更低算力、更普适的设备上部署大模型;二是部署在端侧以后,模型能不能个性化的即时学习。

而这两个问题的实现,直接带着 RockAI 朝着 Yan2.0进发。

看到 AIPC 依然是云端大模型为主,离线状态下模型基本只勉强可用,而用户的个人隐私在云端模式下依然待解,刘凡平意识到要找到更低算力且可大部分时间离线使用的设备来做进入设备的“敲门砖”。

“PC 或者高端手机其实模型量化都能跑,但是高端设备的 GPU 算力跟低端设备差距很大,所以 PK 得往更低端设备走,才能跟设备厂商获得谈的资格。”

于是,他的目光便落到了树莓派上。

这个袖珍型小巧却又性能强大的微型电脑,可广泛应用于物联网、工业自动化、智慧农业、新能源、智能家居等场景及设备,譬如门禁、机器人等终端,同时,大部分情况没有联网。

这就意味着,跑通树莓派,等同于打开了低算力设备端的大门以及不联网的多场景应用。

为了“拿下”树莓派,刘凡平得进一步实现 Yan 模型的降本增效,于是在算法侧,基于仿生神经元驱动的选择算法便出现在了眼下的 Yan1.2模型上。

参考人脑的神经元大概是800-1000亿,功耗大概是20-30瓦,而一台 GPU 算力服务器功耗能到2000瓦,刘凡平认为主流大模型的全参数激活,本身就是不必要的大功耗浪费。

而基于仿生神经元驱动的选择算法,便是使大模型可以根据学习的类型和知识的范围分区激活,如同人开车跟写字会分别激活脑部的视觉区域和阅读区域一般,不仅可以减少数据训练量,同时也能有效发挥多模态的潜力。

据悉,在3月类脑分区激活的工作机制实现后,甚至10亿级参数的 Yan 模型通过改进在0压缩和0裁剪的情况下在一台7年前生产的 Mac 笔记本的 CPU 上跑通本地训练过程,5月 Yan1.2模型便成功跑通树莓派。

值得注意的是,模型分区激活不仅可以降低功耗,同时还能实现部分更新,也就意味着部署后还具备持续学习能力,而这又是 Transformer 一众学徒的“软肋”。

众所周知,大模型的出现也带来一种开发范式:先通过预训练让大模型具备一定的基本能力,然后在下游任务中通过微调对齐,激发模型举一反三的能力。

这就类似先花大量的时间和资源把1岁孩子封闭式培养到成为大学生,然后在不同的工作场景里进行锻炼对齐。

这种范式统一了以往处理不同自然语言任务需要训练不同模型的问题,但也限制了模型在不同场景的应用。

如果换一个没有经过预训练的工作场景,一切都要从头再来,两个字概括:麻烦。

一个离自主进化遥远的 Transformer 大模型,反映到现有实践中,那就是一旦内容变化,往往要1-2个月去把数据清掉后,再重新训练后进行提交。

预训练完之后再大规模反向更新,无论从算力、时间还是经济成本,对企业而言“难以接受”,也让刘凡平在低消耗、显存受限的情况下,为实现端侧训推同步,在模型分区可部分激活更新下,持续寻找反向传播的更优解,试验能更低代价更新神经网络的方案。

从反向传播对参数的调节过程来看,只要模型调整足够快、代价足够小,就能更快达到预期,实现从感知到认知再到决策这一循环的加速,对现有知识体系进行快速更新。

如此一来,通过模型分区激活 + 寻找反向传播更优解“两步走”,就能实现模型的边跑边进化,“同步学习”的概念在 RockAI 逐步清晰。

寻找设备端的智能,谁能成为具身“大脑”?

如上,把一个训练完的 Transformer 大模型比作大学生,那么,一个可同步学习的 Yan 模型,在刘凡平看来,就是一个正在咿呀学语的孩子。

“从小在各种环境下学习,建立知识体系,又不断推翻重建,每一天都有新的体悟,会成独有的知识体系,最终个体多样性会带来群体智慧和分工协作。”

而这样个性化的端侧模型有多重要呢?可以设想:在一个智能城市中,每个家庭的智能家居系统都具备了 Yan 模型这样的能力。这些系统可以根据每个家庭成员的习惯、喜好以及环境变化进行自主学习,并做出相应的调整,个性化服务身边的每一个人。

在刘凡平的设想中,智能“大脑”,关键在于实现模型在边缘计算中的持续学习能力和适应能力。具备同步学习能力的 Yan2.0模型部署到手机、电脑,甚至电视、音响等各类设备后,会根据你说的话和场景进行自主学习,判断出你喜欢的事情,通过跟用户对齐,越来越具备个性化价值,最终形成可交互的多样性智能生态。

不过,刘凡平也坦言,相较于 B 端,目前设备端依然是大模型的蓝海市场,离终 极的个性化 AI 还差一步。

但这,也给了具备低成本低算力基因的 RockAI,从“为设备而生”到“为设备而用”抢占先机的可能。

Yan2.0会在年底或明年初面世, 在他看来,这些设备前期的适配工作做足至关重要,现阶段是系统适配各种硬件,端侧模型需要结合实际载体(即硬件)去做适配研究和迭代改进。

在树莓派跑通后,很多机器人厂商也找到了刘凡平,从某种意义上来说,他们也在寻找具身大脑的可能,一家教育机器人公司甚至给到了刘凡平“愿意第 一时间集成 Yan2.0”的回复。

对于具身智能这一爆火命题,刘凡平很坦率,从身到脑都需要搅局者,但他也有“野心”,去成为那个破局人:在技术创新、商业化同步发力。

四个月前,在 Yan 架构的发布会上,他曾提出了打造“全模态实时人机交互系统”的理念,期望 Yan 模型未来向全模态、实时人机交互、训推同步的方向持续升级,使 AI 技术更加易于获取和使用,推动普惠人工智能的发展。

而如今,随着 Yan2.0将逐步把多模态的视觉、触觉和听觉能力补齐,并结合同步学习的能力,一个在感知、认知、决策、行动四个方面得到全面提升的机器人似乎也在具象化。

可以预见:在感知方面更多模态输入后,机器人同时拥有眼睛和耳朵,可以实时看到和听到信息,然后把接受到的信息进行认知理解,随着理解加深,能做出对应的有倾向性的、个性化的判断,并支配四肢行动。

一个大模型在更加便携的设备或终端中进行无损部署的蓝图,正在徐徐展开。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • AI Lyrics Generator:利用AI技术快速生成原创歌词

    AI Lyrics Generator是一个基于人工智能技术的在线歌词生成工具,专为词曲作者、音乐家和创意人士设计。它能够根据用户输入的风格、主题和情感等参数,快速生成原创歌词。这个工具利用先进的机器学习算法,模仿人类创作歌词的过程,为用户提供灵感和创作辅助。AI Lyrics Generator不仅能够节省创作时间,还能拓宽创作视野,帮助用户探索不同的音乐风格和表达方式。

  • Fancy Text Generator:创意文字转换器,轻松生成独特、炫酷的文字效果。

    Fancy Text Generator是一个在线工具,利用AI算法为用户提供多种风格的花式文字生成服务。它支持包括花式字体、emoji装饰、特殊符号在内的多种文字效果,适用于社交媒体、个人签名、艺术创作等场景。该产品的主要优点包括用户友好的界面、快速生成作品的能力、高分辨率输出以及社区分享功能。它免费在线使用,无需下载,适合所有希望在数字平台上展示个性化文字的用户。

  • Flux Lora Online:在线生成精美图片,释放创意潜力。

    Flux Lora Online 是一个在线平台,提供多种 Flux Lora 模型,用于生成各种风格的图像。这些模型包括但不限于写实风格、动漫风格、迪士尼风格等,能够满足不同用户对图像生成的多样化需求。平台采用先进的图像生成技术,提供高分辨率和细节丰富的图像,同时拥有用户友好的界面,简化工作流程,提高生产力。

  • Vadoo AI:AI视频生成器,将文本快速转化为视频。

    Vadoo AI是一个全功能的AI视频生成器,它使用先进的人工智能技术,让用户能够将文本提示快速转化为视频内容。该产品支持多种语言字幕,提供多种视频风格和模板,以及背景音乐和自动缩放等功能,使得视频制作变得简单而高效。Vadoo AI的目标是帮助用户,无论是社交媒体创作者还是企业营销人员,都能轻松创建专业质量的视频内容,以吸引和保持观众的注意力。

  • AI Youtube Shorts Generator:从长视频中生成引人入胜的YouTube短片

    AI Youtube Shorts Generator 是一个利用GPT-4和Whisper技术的Python工具,它可以从长视频中提取最有趣的亮点,检测演讲者,并将内容垂直裁剪,以适应短片格式。这个工具目前处于0.1版本,可能存在一些bug。

  • Cavela:全球首个虚拟采购代理,连接全球制造商网络

    Cavela是一个创新的虚拟采购代理平台,它通过自动化技术连接全球的供应商网络,为企业提供从供应商匹配、报价编制、样品生产、质量保证到订单交付的一站式服务。Cavela通过其平台,帮助企业降低采购成本,提高效率,同时确保产品质量。它特别适合需要全球采购资源的中小型企业和初创公司,帮助他们在竞争激烈的市场中快速响应市场需求。

  • Landerino:最简洁的网页构建器,设计至上

    Landerino是一个创新的网页构建平台,它通过提供简单易用的界面,让用户能够快速创建、编辑和发布落地页。它不仅支持实时编辑和预览,还提供了强大的分析工具,帮助用户优化页面并进行A/B测试。Landerino的目标是让每个人都能轻松地构建和管理自己的网页,无需专业的技术背景。它通过简化网页制作流程,降低了维护成本,使内容创造成为焦点。

  • Mneme AI:在设备上与您的笔记进行对话,提升生产力。

    Mneme AI 是一款运行在iPhone上的本地AI助手应用,它允许用户通过与个人笔记、文档和书籍的对话来提高工作效率。这款应用完全离线运行,确保了用户数据的隐私和安全。Mneme AI 通过提供个性化的响应,帮助用户整理思绪和知识,支持用户使用内置文本编辑器记录新笔记或添加PDF文档。它支持英语,并推荐在iPhone 14或更新型号上使用以获得最佳性能。

  • AI-Faceless-Video-Generator:利用AI生成视频脚本、语音和会说话的头像

    AI-Faceless-Video-Generator是一个利用人工智能技术,根据话题生成视频脚本、语音和会说话头像的项目。它结合了sadtalker进行面部动画,gTTS生成AI语音和OpenAI语言模型生成脚本,提供了一个端到端的解决方案,用于生成个性化视频。该项目的主要优点包括脚本生成、AI语音生成、面部动画创建以及易于使用的界面。

  • FLUX.1-dev-LoRA-Dark-Fantasy:生成幻想生物和角色的AI模型

    FLUX.1-dev-LoRA-Dark-Fantasy是由Shakker AI的GUIZANG(歸藏)训练的LoRA模型,专注于生成幻想生物和角色。该模型受到Klee、Odilon Redon、Eyvind Earle等艺术家的影响,能够生成具有电影质感、复杂光影效果和精细细节的图像。模型遵循flux-1-dev-non-commercial-license,适用于非商业用途。

  • 通义万相AI视频生成:利用AI技术,将文字和图像转化为创意视频。

    通义万相AI创意作画是一款利用人工智能技术,将用户的文字描述或图像转化为视频内容的产品。它通过先进的AI算法,能够理解用户的创意意图,自动生成具有艺术感的视频。该产品不仅能够提升内容创作的效率,还能激发用户的创造力,适用于广告、教育、娱乐等多个领域。

  • Windows Agent Arena:用于测试和开发AI代理的可扩展开源框架

    Windows Agent Arena (WAA) 是一个专注于Windows操作系统的可扩展、开源框架,用于测试和开发能够使用语言模型在PC上进行推理、规划和行动的AI代理。它通过模拟真实的Windows环境,允许代理自由操作,并使用与人类用户相同的应用程序、工具和网络浏览器来解决任务。WAA通过Azure实现可扩展性和并行化,能够在短短20分钟内完成完整的基准测试评估。

  • VELS by Kaiden AI:AI驱动的模拟训练,提升沟通技能。

    VELS by Kaiden AI是一个基于人工智能的模拟训练平台,提供定制化、反馈丰富的模拟场景,帮助用户准备各种交流互动。该平台通过创建逼真的训练场景和AI虚拟对话伙伴,模拟真实世界的交流环境,让用户在安全的环境中练习和提高沟通技能。VELS通过实时反馈和性能分析,为用户提供个性化的训练体验,帮助他们在各种行业和角色中提升表现。

  • Selfplanr:规划你的高中四年,迈向梦想大学。

    Selfplanr是一个为高中生设计的在线规划工具,旨在帮助学生规划他们的高中生涯,以实现进入理想大学的目标。通过个性化的目标设定、动态的四年规划、每周任务安排、与导师和同伴的协作规划以及动态进度跟踪,Selfplanr帮助学生构建全面而独特的简历,发现学术之外的无数机会,如实习、奖学金、研究和志愿活动。

  • GoMaxAI:一站式AI服务,提供多样化智能解决方案。

    GoMaxAI是一个集成了多种AI功能的平台,旨在为用户提供包括3D视频创建、智能问答、AI绘画、文档分析和思维导图等多种智能服务。它通过先进的AI技术,帮助用户在影视制作、设计、艺术创作、信息处理等领域提高效率和创造力。

  • XVERSE-MoE-A36B:多语言大型语言模型,支持多领域文本生成。

    XVERSE-MoE-A36B是由深圳元象科技自主研发的多语言大型语言模型,采用混合专家模型(MoE)架构,具有2554亿的总参数规模和360亿的激活参数量。该模型支持包括中、英、俄、西等40多种语言,特别在中英双语上表现优异。模型使用8K长度的训练样本,并通过精细化的数据采样比例和动态数据切换策略,保证了模型的高质量和多样性。此外,模型还针对MoE架构进行了定制优化,提升了计算效率和整体吞吐量。

  • Peter Cat:智能答疑机器人解决方案,助力GitHub社区维护者和开发者

    Peter Cat 是一个专为社区维护者和开发者打造的智能答疑机器人解决方案。它通过对话式答疑 Agent,配置系统、自托管部署方案和便捷的一体化应用SDK,让用户能够一键创建智能答疑机器人,并快速集成到各类官网或项目中,为社区提供更高效的技术支持生态。

  • Covers:将您的音乐作品转换为全新风格。

    Covers 是 Suno 推出的一款音乐创作工具,它允许用户将任何声音,从简单语音备忘录到完整制作的音乐,转换成全新风格的音乐作品,同时保留原始的旋律。这一功能特别适合想要尝试不同音乐风格或为纯音乐添加歌词的音乐创作者。Covers 目前处于早期访问测试阶段,向所有 Pro 和 Premier 订阅者提供,用户可以免费试用200次,之后每次生成新 Cover 将消耗10个积分。

  • AgentRE:基于代理的框架,用于在复杂信息环境中进行关系抽取。

    AgentRE是一个基于代理的框架,专门设计用于在复杂信息环境中进行关系抽取。它通过模拟智能代理的行为,能够高效地处理和分析大规模数据集,从而识别和提取实体之间的关系。该技术在自然语言处理和信息检索领域具有重要意义,尤其是在需要处理大量非结构化数据的场景中。AgentRE的主要优点包括其高度的可扩展性、灵活性以及对复杂数据结构的处理能力。该框架是开源的,允许研究人员和开发者自由使用和修改,以适应不同的应用需求。

  • GoMaxAI Pro版 (ChatGPT-Midjourney):个人、团队、企业私有化AIGC应用平台

    GoMaxAI Pro版是一个基于Node.js、Vue3、uniapp开发的AIGC平台,提供ChatGPT、Midjourney绘画、Suno音乐、Pika/Runway/Sora视频服务。它支持私有化部署,适用于个人、团队和企业,强调用户体验和资源集成,具备权限管理和安全审计功能。

今日大家都在搜的词: