11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
上海岩芯数智人工智能科技有限公司的Yan架构大模型成功通过《生成式人工智能服务管理暂行办法》备案,这是国内首个非Transformer架构大模型通过备案。Yan模型简介Yan架构大模型是国内首个非Transformer架构、非Attention机制的大模型。Yan架构大模型的备案通过是RockAI践行使命的重要里程碑,未来,我们期待Yan架构大模型在更多设备单元部署应用,让群体智能引领走向通用人工智能,与合作伙伴一起,领先一步开拓更加广阔的市场空间。
【新智元导读】LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer,上下文越长,训练速度越快能维持原有精度。AI的未来,或许就此改写......最近,英伟达团队抛出的一枚重磅炸弹,提出了全新神经网络架构——归一化Transformer,基于超球面进行表示学习。下图6展示了,注意力模块和MLP模块的特征学习率,应用于MLP中间状态的缩放因子,应用于QK点积之前�
训练Transformer,用来解决132年的数学世纪难题!如何判断一个动力系统是否稳定?Meta和巴黎理工学院团队携手提出SymbolicTransformer,直指这一经典难题的核心:发现新的全局李雅普诺夫函数。从牛顿、拉格朗日到庞加莱,无数科学家倾力研究三体问题的长期稳定性,却始终无法给出一个通用的判定方法。作者巴黎师范教授AmauryHayat表示,几年前刚开始这个项目时,作为一个年轻天真�
【新智元导读】随着诺贝尔物理学奖颁给了「机器学习之父」GeoffreyHinton,另一个借鉴物理学概念的模型架构也横空出世——微软清华团队的最新架构DifferentialTransformer,从注意力模块入手,实现了Transformer的核心能力提升。随着近些年来NLP领域研究的不断深入,我们逐渐发现,Transformer架构中出现的幻觉问题,以及各种下游任务中的性能不足,都或多或少与注意力缺陷有关。他的研究兴趣是大语言模型的骨干网络、长序列的建模和推理,以及大语言模型在其他领域的应用。
通往AGI终极之路,是什么?这世界,没有一个完整的定义,也没有具体的答案。此前曝出的OpenAI秘密路线图,将通往AGI目标划分五级。在Yan系列智慧生态的基础上,持续的群体进化将成为可能,最终绘制出「群体智能」的未来蓝图。
提示工程师RileyGoodside小哥,依然在用「Strawberry里有几个r」折磨大模型们,GPT-4o在无限次PUA后,已经被原地逼疯!相比之下,Claude坚决拒绝PUA,是个大聪明。谷歌最近的论文也揭示了本质原因:LLM没有足够空间,来存储计数向量。这表明在计数任务中,我们可能需要借助于不具有相同限制的工具,例如代码解释器等。
Transformer八子中最年轻的AidanGomez在最新的采访中感叹:谷歌版的AidanGomez,是给AI领域带来深远影响的Transformer作者之一。现在的AidanGomez,是估值飙升55亿美元的Cohere公司的联合创始人兼CEO。所以我认为我们的首要任务应该是提高生产力和增长。
【新智元导读】就在刚刚,Meta最新发布的Transfusion,能够训练生成文本和图像的统一模型了!完美融合Transformer和扩散领域之后,语言模型和图像大一统,又近了一步。真正的多模态AI模型,可能很快就要来了!Transformer和Diffusion,终于有了一次出色的融合。他在卡耐基梅隆大学语言技术研究所获得博士学位,师从EduardHovy教授,并在上海交通大学获得了计算机科学硕士和学士学位�
出任Gemini联合技术主管!这就是Transformer“贡献最大”作者NoamShazeer,重返谷歌后的最新动向。据TheInformation的更多爆料,Shazeer将与谷歌AI主管JeffDean和DeepMind首席科学家OriolVinyals,一起致力于Gemini的开发。这也让人不得不感慨,即使是AI搜索,在盈利模式上还是和传统搜索一样,都得靠广告。
「因果推理」绝对是当前GenAI热潮下的小众领域,但是它有一个大佬级的坚定支持者——YannLeCun。他在推特上的日常操作之一,就是炮轰Sora等生成模型,并为自己坚信的因果推理领域摇旗呐喊。受JudeaPearl愿景的启发,这项工作代表着一个潜在的新科学前沿——因果关系研究和语言模型的交叉点上。