首页 > 传媒 > 关键词  > AGI最新资讯  > 正文

「群体智能」剑指AGI革命!国产架构挑战Transformer霸权,非Attention模型更新

2024-09-30 10:31 · 稿源: 站长之家用户

通往AGI先进之路,是什么?

这世界,没有一个完整的定义,也没有具体的答案。

此前曝出的OpenAI秘密路线图,将通往AGI目标划分五级。

而「草莓」o1 模型出世,代表着第二级已经实现。

李飞飞估值 10 亿美金独角兽World Labs,将「空间智能」看作通向AGI重要的桥梁。

他们计划打造出「大世界模型」(LWM),通过对世界建模,让AI在3D世界中去感知、去生成、去互动。

国内一家AI初创团队,对此也有不同的看法。

他们认为,「群体智能」是迈向更广泛的通用人工智能的路线。未来,世界每个设备都拥有自己的智能,能够以类人的方式交互。

不过,实现这一想法的前提是,我们需要一个创新的算法架构。

值得一提的是,这个团队却做了一件「反直觉」的事——首创非Transformer独特路线。

基于全新架构,他们打造的Yan系列模型已经植入到树莓派、机器人、AIPC等终端设备中。

恰在RockAI开放日上,多模态模型Yan1. 3 全面升级,直接击败开源Llama 3,「真端侧」比较强大脑诞生了!

模型端到端,秒级实时人机交互

全新迭代后的Yan1.3,支持从文本、音频、视觉输入,并以语音、文本方式输出。

它模拟了人类复杂的感知系统,既能听懂自然语言、看懂视觉信息,也能通过语音方式表达。

可以说,它是全球头个人机交互领域中,端到端的多模态大模型。

凭借出色的架构设计,Yan1. 3 模型在兼容性和性能,取得了特出的表现,从低算力到高算力全面覆盖。

在不同终端上的体验,多模态Yan1. 3 更是实现了秒级实时响应。

在CPU上秒级响应,GPU上更是有百毫秒级的人机交互,体验非常丝滑赶超云端的大模型。

不如一起来看看,Yan1. 3 在手机、PC、机器人、无人机上,如何无损部署的。

低配 1500 元可跑,真·AI手机来了

在人手一台手机的时代,搭载一个本地的大模型,那才是真·AI手机。

现场演示中,离线部署Yan1.3 3B参数的手机,直接断网,上演了不用联网也能体验LLM的精彩一幕。

告诉语音助手RockAI自己的需求——介绍一下上海。它在遵循指令后,瞬间给出了关于上海的一些简单概要。

它还可以跨应用,完成系统的调用。

让它打开相册,并找出一张夕阳的照片。

RockAI不仅准确找到了夕阳照片,还给出了小红书的风格描述,这种费脑的事儿,它全部代劳了。

更惊艳的是,告诉它今天是小明生日,并帮自己为其送上祝福。

RockAI直接进入短信界面,自动生成编辑了一段内容,你所做的就是点击「发送」了。

可见,一个 30 亿参数离线模型,同时具备了以文找图、以图生文,Agent、语音助手等能力,强大到足以让人震撼。

在同等的手机硬件配置上,Yan1. 3 模型相比Transfomer有30%的性能超越。

或许有的人会问,能够运行这样的模型,一定需要高配的手机。

RockAI联创邹佳思称,从低端¥ 1500 到中端¥ 3000 配置,而且还只是8G运行内存,都可以无损适配。

懂人话有效助手,AI PC更便利

不仅如此,在个人PC上,业界早就掀起了AI PC的概念。

但若是没有在设备端完全部署模型,AI能力的使用会严重受限。而且,AI PC根本无法普及到大多数用户。

接下来,这段现场演示中,直接为AI PC掐断了网线。

上传一段主持人的天气预报音频,然后AI智能助手将其实时转录成了文字。

转写完成后,还能帮你立即总结出一份摘要。

另外,每个人办公时均会遇到一个困扰,「xxx图片」谁知道保存到了哪个文件夹。

现在,这个烦恼完全可以打消了。

只要一句话,AI智能助手就能直接帮你找到想要的那个图片。

而且,它还可以支持以图搜图的方式。

这些功能的实现,仅需要一台配备英特尔Core i5 主机即可流畅运行。

四步成诗,轻松拿捏新中式

Yan1. 3 还在人形机器人上,实现了离线运行。

我们都知道,构成机器人最核心的三要素,便是大脑、小脑、本体。

如果让一个冰冷的机械,同时具备「看听说想动」的能力,并基于已有的知识完成决策,最后指挥肢体进行行动。

这样的前提,一定是离不开大模型、分层控制算法的植入。

当你呼叫小苏小苏,你看见了什么?

凭借强大的多模态认知能力,它准确地描述出了当前周围的环境和布局。

另外,Yan1.3「大脑」控制的躯体,还能完成各类有效复杂的任务。

现场,让小苏吟诗一首——关于冬天的七言绝句,并在 4 步之内完成。

只见小苏一边走,一边完成了绝美的创作。

寒风凌冽雪纷飞, 万物萧疏鸟自栖。 唯有梅花凌雪放, 清香四溢满庭芳。

有趣的是,当小苏吟诗后离拍摄者太近,让它让一让。

只见,憨态可掬的它向另一边慢慢踱步。

其实,在今年世界人工智能大会上,搭载Yan模型,基于树莓派打造的胖虎机器人就亮相了。

它在现场七步成诗、咏春拳法等各种精彩演示,吸引了一大波围观歪果仁观看。

城市巡检拍照,无人机全包了

而在无人机方面,搭载Yan1. 3 后的用法就更多了。

它不仅可以治安巡逻、交通巡检,异常监控,还可以当那个为你抓拍美照的「男友」。

当然了,智能巡检这类任务,对于一个城市管理来说非常重要。

植入离线模型的无人机,可以从多方位感知环境,快速识别图像信息,自适应调整飞行高度。

它可以搭配手机,完成「端」和「端」的互联操作。

交通巡检过程中,它可以智能识别违规车辆,并将信息传送到手机上。

当你自拍找不到满意角度,直呼「飞龙,给我拍一张氛围感满满的照片」。它一跃升天,拍下了多种角度的照片,通过对照片的多维度评分,还贴心地帮你选好了最美瞬间。

可见,全新升级的Yan1. 3 已经赋予了每个端侧设备「灵魂」。

它不仅在无人机、机器人、PC、手机等终端设备中,丝滑适配,而且模型智能能力迎来了全新升级。

无需阉割模型,让端侧设备具备了完整性、可持续性。

这种类人的输入输出过程,不仅大幅地提升人机交互的质量,还为未来教育、医疗等行业开辟了更广阔的应用场景。

当一个比较强端侧完成进化,那么一群比较强端侧协作,能够实现什么?

简言之,群体智能。

群体智能,怎么实现?

其实,群体智能,很早就存在于生物界。

蚁群会一起搬运食物、搭建蚁巢;蜜蜂会各司其职,协作维护蜂巢;狼群结队,捕获猎物等等。

这些都是,生物界群体智能的体现。

纵观生物界的发展,能够得出一个基本规律——个体智能化程度越高,群体智能的表现力越强。

就像人类一样,我们的群体智能,所表达出的文明程度远远高于蚁群、蜂群、狼群.......

从中汲取灵感,人工智能也会有「群体智能」。

单元大模型的智慧,能够反哺整个大模型群体,进而让AI群体更聪明、更智能。

或许你会说,其实国外很多研究,早就通过多个智能体协作,实现了高性能群体智能。

其实不然,它们之间有着本质的区别。

智能体本身,存在一个很大缺陷——不具备自主学习能力。

而且,智能体之间的协作,也是一个很小范围的协作。

究其根本,是因为基于Transformer架构大模型搭建的智能体,实现自我训练非常困难。

群体智能中最核心的要素便是个体,也就是「端」。

而基于Transformer架构的模型,若想在端上运行、并自主学习,根本不可行。

因为模型通常会被量化裁剪压缩之后,才会植入端设备。而被阉割之后的模型,就不再具备学习能力。

那该如何破解?

为了实现群体智能,RockAI经过多年的技术沉淀,创举了不同于Transformer的MCSD架构,并且提出了「类脑激活」机制。

这条路线,与OpenAI、World Labs有着本质区别,是国产公司在AGI前沿另辟蹊径的尝试。

Transformer不是仅有路径

当前的现状是,大模型领域早已呈现出Transformer「一家独大」的格局。

用AI大神Karpathy的话说:先进的GenAI模型,要么是自回归训练,要么是扩散训练,底层的神经网络通常都是Transformer架构。

虽然Transformer自身有许多优秀的特质,但不可否认,这仍不是一个百分百美好的架构。

甚至,有很多业界AI大佬已经看到了其中的巨大弊端。

首当其冲的,就是被诟病已久的幻觉问题。

Yann LeCun认为,LLM的幻觉根源于当前所使用的自回归Transformer架构。

「幻觉问题是自回归LLM架构特有的」「自回归LLM会产生幻觉…幻觉是自回归生成的本质缺陷」

这种架构上的本质缺陷,注定了有一天我们要走出Transformer生态,就像曾经 90 年代末走出SVM生态、 3 年前走出BERT生态一样。

就连提出Transformer核心架构作者之一Aidan Gomez认为,这世间需要比Transformer更好的东西,希望将其取代,把我们带向更高的性能高地。

「现在使用了太多计算资源,做了很多浪费的计算」

部署方面,基于Transformer架构模型对终端设备运行内存、储存空间提出了更高要求,同时压缩后的模型,在实际推理上大打折扣。

能源方面,今年 3 月,马斯克表示, 2025 年AI将耗尽电力和变压器,用他的话来说,「很讽刺的是,我们需要transformers(变压器)来运行transformers(模型)。」

很明显,无论是从减少幻觉、推动技术进步的角度,还是从环境保护、促进GenAI发展可持续的角度,我们都急需一种能够跳出Transformer「思维圈」的新架构诞生。

国内头个非Attention机制

RockAI初次提出的MCSD(Multi-Channel Slope and Decay)架构就是跳出Transformer路线的一次较好尝试。

而MCSD比较大的特点,便是替换了Transformer架构中的注意力机制。

随着序列长度的增加,Transformer架构对计算资源的消耗呈现O(N^2)增长,相比之下,MCSD实现了线性扩展,而且推理速度更快,将空间和时间复杂度分别降低到了O(1)和O(N)。

直白讲,MCSD全新架构能够将算力消耗降至更低。

也就意味着,基于此架构打造的模型,在端侧设备上运行有了新的可能。

论文地址:https://arxiv.org/abs/2406.12230

MCSD的具体架构如图 1 所示,由嵌入层和N个相同的组合层堆叠而成,每个组合层中由两个残差连接分别封装MCSD块和门控MLP块,两者都前置一个RMS归一化模块,并使用GeLU作为激活函数。

MCSD块的内部结构如图1(右)所示,集成了slope部分和decay部分,分别通过不同的预定义矩阵捕捉局部和全局特征。

两个部分均采用了双分支设计,一个分支负责进行线性投影,另一个通过聚合前面token的上下文信息来提取多通道历史特征,之后两个分支进行扰动(perturbation)操作。

slope和decay部分主要存在两方面的区别,一是预定义权重不同,因此在提取历史信息时对上下文的感知能力不同,前者更注重短程上下文,后者则更关注全局上下文。

将slope和decay两部分的输出进行拼接后就得到了MCSD块的输出,这两者的组合使得模型既能关注到距离更近的历史信息,也不会丢失更远的长距离上下文,从而同时增强了局部和全局的特征提取。

此外,论文还提出通过递归形式简化推理计算,将推理所用的空间和时间复杂度分别降低至O(1)和O(N),显著压缩了所需算力。

实验数据显示,随着序列逐步变长,KV缓存的存在让Transformer推理的内存成本呈线性增加;相比之下,即使是8k的长序列,MCSD消耗的GPU内存也几乎不变。

给定序列长度后,随着批大小的增加,Transformer的延迟也会显著增加,而MCSD的延迟则依旧十分稳定。

此外,有相同批大小或序列长度时,MCSD的吞吐量性能也远远好于Transformer架构。

除了大大节约吞吐量、延迟、内存消耗等方面的成本,MCSD还在基准测试上有更佳的性能。

类脑激活机制

基于MCSD架构,RockAI实现了能在「端侧」运行群体智能单元大模型。

但这并不代表着,能够在更多端侧上实现特出性能。

因此,RockAI还在Yan系列模型中采用了创举的「类脑激活」机制,实现基于仿生神经元驱动的选择算法。

在主流的神经网络中,每次推理都需要激活全部神经元,这会导致大量算力浪费。

而人脑的运作并非如此。

不同的大脑区域负责不同的认知功能,因此不同的执行不同的任务只会造成一部分脑神经元的激活,而且激活的区域也各有不同。

比如开车时,视觉皮层会更加活跃;而写作时,掌管记忆或逻辑的脑区激活程度更高。这也许就是为什么,相比调动每个处理单元的计算机,大脑明显更加「节能」。

因此,模拟大脑中的神经元激活模式,可以让神经网络更加有效地处理复杂数据和任务,从而显著提升计算效率和精度。

通过以上两种方式结合,一是用MCSD替换注意力机制,而是通过选择性神经元计算,带了较好的低算力消耗。

正是基于如此强大的「双机制」,RockAI在今年 1 月发布了国内头个非Transformer架构的大模型Yan 1.0。

随之 7 月,发布了国内头个终端多模态大模型Yan 1.2。

经过几次迭代,目前已经升级为端到端的多模态Yan 1.3,代表着迈向群体智能的新起点,是群体智能的单元大模型。

厚积薄发,先进目标迈向群体智能

要实现AI的群体智能,并不是一件简单的事,提出MCSD架构和「类脑激活」机制,只是一个开始。

为了达到群体智能,RockAI将这个大目标分解为 4 个阶段的子目标,一步步稳扎稳打。

目前,他们已经跨越了首先级,正在完成第二级的跃升。

创新基础架构,是要跳出Transformer的既定路线,旨在实现模型性能效率的跨越式发展;

多元化硬件生态,则是模型部署落地的根本保证,只有适配多终端、多厂商、多型号的硬件,形成成熟的生态,才能为群体智能创造实现条件。

随着Yan 1. 3 模型的发布和广泛部署适配,意味着前两个阶段的目标已经基本实现。

从Yan 1. 0 到Yan 1.3,不仅覆盖了更多设备,还实现了端到端的多模态支持。

输入输出形式包含了文本、语音、视觉在内的多模态,不但大大方便人机交互,还能让多个AI模型之间更灵活地交流同步。

下一步,RockAI将继续发布Yan2.0,继续强化模型的自主学习、自我优化能力,让AI更好地和真实的物理世界交互。

在Yan系列智慧生态的基础上,持续的群体进化将成为可能,最终绘制出「群体智能」的未来蓝图。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 凯迪拉克VISTIQ亚洲首秀,搭载Momenta飞轮大模型定义豪华纯电智能出行

    4月23日,凯迪拉克在上海举办"心驰·电掣"发布会,推出亚洲首秀的VISTIQ车型。该车与Momenta深度合作,采用行业首个量产飞轮大模型技术,实现L2全场景城区辅助驾驶功能,提供"有路就能开,有位就能停"的智能体验。凯迪拉克强调不应通过堆砌硬件实现智能化,而需技术创新与用户体验并重。此次合作展现了凯迪拉克拥抱智能化的决心,也彰显了Momenta在自动驾驶领域的技术领先地位。双方将共同推动豪华纯电出行的智能化升级。

  • Windows Arm64 托管运行器正式支持 GitHub Actions,加速开发流程

    Arm与GitHub深化合作,为Arm平台开发者提供更高效的开发体验。

  • Trae国内版怎么用?Trae IDE 内置 MCP 市场配置使用指南

    字节跳动旗下Trae+IDE发布新版本,通过MCP协议实现AI智能体与外部工具的深度集成。MCP作为标准化桥梁,让开发者能灵活接入Supabase、FireCrawl等第三方服务,只需@符号即可调用智能体完成数据库操作、文档搜索等复杂任务。新版本内置MCP市场,支持Token快速配置,并演示了如何通过Figma+AI自动生成前端代码。该技术可应用于Blender建模、K8s管理等多元场景,显著提升开发效率。Trae+IDE将持续扩展工具生态,推动AI协作开发新时代。

  • MCP协议和Function Calling 、 AI Agents的区别是什么?MCP优势有哪些

    MCP、FunctionCalling和AIAgents是三种重要的技术手段,它们在实现AI模型与外部系统交互方面各有特点。本文将详细对比这三种技术,并深入探讨MCP的多项显著优势。随着MCP技术的不断发展,我们有理由相信,它将在未来的AI领域发挥越来越重要的作用。

  • 追觅全球首创20万转高速数字马达量产落地!吸尘器Z50 Station突破行业天花板

    在吸尘器行业持续突破性能极限的进程中,追觅科技以突破性创新技术再次领跑赛道。2024年,追觅科技自研的20万转/分钟高速数字马达获全球权威机构沙利文全球首创认证。追觅科技将以创新为引擎,持续引领全球清洁电器行业迈向智能化、高效化的新时代。

  • 全球首款骁龙8至尊版小折叠!联想moto razr 60 Ultra发布

    摩托罗拉4月25日在海外发布moto razr 60 Ultra折叠手机,这是全球首款搭载骁龙8至尊版的小折叠旗舰。新机采用4英寸超大外屏和7英寸内屏,均支持165Hz LTPO自适应高刷,峰值亮度达4000尼特。后置5000万双摄支持OIS防抖,配备4700mAh电池和68W快充。机身重199g,展开厚度7.2mm,支持IP48防护。海外售价1300美元(约9474元),联想宣布将于5月8日在上海发布国行版本,预计价格会更优惠。

  • 努比亚Z70S Ultra摄影师版官宣:今年唯一真全面屏Ultra

    快科技4月18日消息,今天,努比亚宣布努比亚AI双旗舰新品发布会将于4月28日举行,努比亚Z70S Ultra摄影师版和努比亚首款神秘新品将同时亮相。本次发布会的重头戏是努比亚Z70S Ultra摄影师版,对比其它Ultra机型,Z70S Ultra摄影师版采用1.5K真全面屏形态,是今年唯一一款真全面屏Ultra。据悉,这块屏幕采用全屏蓝钻排列,通过FIAA极致压缩走线技术实现超高屏占比,加上内置UDC Ultra

  • 努比亚首款!Z70S Ultra摄影师版支持无网实时通话

    努比亚Z70S Ultra摄影师版将于4月28日发布,支持无网实时通话功能。该机搭载双向卫星通信技术,可在无信号盲区实现通话和短信功能,相比地面网络更稳定可靠。新机还支持1公里内无网通话,适合地震救灾等应急场景。配置方面采用1.5K真全面屏,搭载骁龙8 Gen3平台,预计配备16GB内存+1TB存储和6600mAh大电池。相比卫星通信需空旷环境,该无网通话功能在障碍物遮挡时仍可使用,更适合地下场所等特殊环境。

  • 奥特曼:ChatGPT不是AGI!OpenAI最强开源模型直击DeepSeek

    【新智元导读】代码截图泄露,满血版o3、o4-mini锁定下周!更劲爆的是,一款据称是OpenAI的神秘模型一夜爆红,每日处理高达260亿token,是Claude用量4倍。奥特曼在TED放话:将推超强开源模型,直面DeepSeek挑战。持续的创新、丰富的资源和智能AI将会无缝融入日常生活,未来一代人将会觉得当前人们又辛苦又落后。

  • 数巅科技首发企业级 Multi-Agent 框架 AskBot —— 探索企业数据领域的AGI初级形态

    继DeepSeek火遍全球后,以OpenAIDeepResearch与Manus为代表的深度推理与通用Agent框架再次引爆科技圈,展现了惊人的智能推理与执行能力。在企业级关键任务场景中,这类通用型架构的局限性日益凸显:企业内部信息整合不足导致复杂问题分析的准确性受限;依赖有限的工具难以满足各类场景的多样化需求;一味追求深入推理则往往使决策链冗长,难以满足实时响应的要求。企业胜于创新,创新源于融汇!