首页 > 业界 > 关键词  > 正文

研究人员提出 “Hyena”:可能颠覆现有的大模型注意力机制系统

2023-07-19 11:50 · 稿源:站长之家

站长之家(ChinaZ.com)7月19日 消息:一项由斯坦福大学和 Mila 研究人员提出的新架构 “Hyena” 正在自然语言处理(NLP)社区中引起轰动,并被认为可能颠覆现有的注意力机制系统。

该架构通过长卷积和逐元素乘法门控制实现了与注意力机制相媲美的性能,同时降低了计算成本。通过在自动回归语言建模和图像分类方面进行实验,研究人员发现 Hyena 能够在性能上与注意力模型相媲美,并且具有更低的计算复杂度和参数数量。这项研究对于大规模语言模型的开发具有重要意义,并可能成为一种高效的替代方案。

image.png

研究人员在论文中提到:

二次算子可以大规模匹配注意力模型的质量,而无需在参数和优化成本方面付出高昂的代价。基于有针对性的推理任务,作者提炼出了对其性能有贡献的三个最重要的属性。

数据控制

次线性参数缩放

不受上下文限制。

考虑到这些要点,他们随后引入了鬣狗等级制度。这个新算子结合了长卷积和逐元素乘法门控,以匹配大规模注意力的质量,同时降低计算成本。

进行的实验揭示了令人震惊的结果。

语言建模。

Hyena 的扩展性在自回归语言模型上进行了测试,在基准数据集 WikiText103和 The Pile 上对困惑度进行评估时,发现 Hyena 是第一个与 GPT 质量相匹配的无注意力卷积架构,总 FLOPS 降低了20%。

WikiText103上的困惑(相同的分词器)。* 是来自(Dao 等人,2022c)的结果。更深更薄的模型(Hyena-slim)可实现更低的困惑度

训练模型的堆上的困惑,直到令牌总数达到50亿(每个令牌总数不同)。所有模型都使用相同的分词器 (GPT2)。FLOP 计数针对150亿代币运行

大规模图像分类

该论文展示了 Hyena 作为图像分类通用深度学习算子的潜力。在图像翻译方面,他们用 Hyena 算子替换了 Vision Transformer(ViT)中的注意力层,并将性能与 ViT 进行匹配。

在 CIFAR-2D 上,我们在标准卷积架构中测试了2D 版本的 Hyena 长卷积滤波器,该滤波器在2D 长卷积模型 S4ND(Nguyen 等人,2022)的精度上进行了改进,加速率提高了8%,参数减少了25% 。

image.png

在十亿级参数规模上取得的有希望的结果表明,注意力可能不是我们所需要的全部,并且像鬣狗这样的更简单的二次设计,通过简单的指导原则和对机械可解释性基准的评估,构成了高效大型模型的基础。

举报

  • 相关推荐
  • 大家在看
  • ​谷歌AI研究人员提出噪声感知训练方法(NAT)用于布局感知语言模型

    在文档处理中,特别是在视觉丰富的文档中,高效信息提取的需求变得越来越关键。VRDs,如发票、水电费单和保险报价,在业务工作流中随处可见,通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路,标志着该领域迈出了重要的一步。

  • 微软研究人员指出,并非所有token都符合需求

    微软研究人员挑战了语言模型预训练的传统方法,该方法在训练语料库中的所有token上均匀应用下一个token预测损失。他们提出了一种新的语言模型称为RHO-1,该模型利用选择性语言建模。SLM可以扩展到监督微调,以解决数据集中的噪声和分布不匹配,并通过训练一个强调帮助性、真实性和无害性的参考模型来获得在预训练期间获得本地对齐的基本模型。

  • 以假乱真,天工音乐大模型带来颠覆式AI体验

    昆仑万维AI音乐生成大模型「天工SkyMusic」开启了免费邀测活动,诚邀媒体、行业专家以及感兴趣的音乐从业者们共同体验人声情感表达SOTA的音乐大模型产品。邀测开始后,广大用户对「天工SkyMusic」AI音乐生成大模型的热情远超我们的预期,工作人员在极短时间内收到了几十万份测试申请,其中包括众多专业的音乐创作人、媒体及行业专家有大量测试申请被源源不断地发至后台。昆仑万维已打造了集AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力于一体的「天工3.0」多模态“超级模型”,成为AI行业全新里程碑。

  • 智器云推出FMossGPT,让大模型真正成为新质生产

    人工智能热潮席卷全球,撼动了很多行业的发展模式。以大模型为代表的通用人工智能,深刻改变了当前以人力和时长为主要生产模式的产业形态,从根本上重塑了产业的全球竞争力。”FMossGPT在公共安全、执纪监督、金融反洗钱、知产保护、高校科研等多个数据分析项目中都能展现出强大的实力,无论是在打击犯罪的战场上是在学术研究的领域里,凭借其独特的智慧,为数据分析工作注入新的活力!智器云助推大模型产业生态蓬勃发展在智器云的发展蓝图中,大模型FMossGPT将成为创新解决方案的的核心,以它为基座,将有更多人工智能产品与大家见面!智器云会继续深化大模型在数据情报分析中的应用,不断推出创新产品和服务,以满足不断变化的社会需求,推动大模型产业生态蓬勃发展,助力数据情报分析领域的智能化水平迈上新的高峰!先进科技是推动新质生产力产生的核心驱动力,科技进步需要行业内外的共同努力。

  • 挑战拯救痴心“舔狗”,我和大模型都尽力了

    大模型化身为“痴情男大”,等待人类玩家的拯救。一款名为“拯救舔狗”的大模型原生小游戏出现了。大模型在学习这个世界,也在创造一个AINative的世界,无论是大模型原生小游戏是功能越来越全的大模型对话,都在展现世界内容的互动变革,随着尺度规律的不断发展,下一步会怎样?在这次技术交流日上,商汤最后放出了一段文生视频,一起来看看。

  • 巨头狂卷代码大模型

    让AI写代码正在越来越流行。今天蚂蚁集团智能研发平台CodeFuse推出了“图生代码”技术,这一技术集成在CodeFuse上,可将网页、App等设计图一键转化成前端代码。

  • 每日互动持续增强大模型能力,推出、升级多款大模型应用产品

    人工智能引领的"第四次工业革命"正在到来,特别是2023年以来,以大模型、多模态、生成式为特征的新一轮人工智能浪潮席卷全球,带来新的变革。在这机遇与挑战并存的时期,国内专业的数据智能服务商--每日互动快速响应、积极探索大模型、AIGC等先进数智技术,升级产品性能,驱动业务创新,并储备公司下一条S型曲线。每日互动本身就是优质数据资源的持有方,因此在未来,拥有海量鲜活的数据积累、深厚沉淀的数据治理能力、丰富多元的数据应用场景的每日互动将更有可为。

  • 从小数据到大模型,“AI+”何以落地?

    南京师范大学附属中学宿迁分校成立智慧教学小组,并以周为单位,对教师的智慧课堂应用数据进行复盘;中国人民大学附属中学丰台学校的教师们,已经习惯于课后通过课堂智能反馈系统总结自己的上课情况;而通过集体备课平台,北京师范大学广州实验学校的教师们可以随时随地进行线上交流互动和资源共享……在全国各地的中小学,AI技术正与教育不断融合。变化背后,有�

  • 开源大模型AI代理操作系统:像Windos一样,操控AI代理

    AutoGPT的出现让我们见识到了AI代理强大的自动化能力,并开创了一个全新的AI代理赛道。但在子任务调度、资源分配以及AI之间协作还有不少的难题。AIOS会引入更复杂的内存共享机制和层级缓存策略,以进一步优化AI代理的整体性能。

  • 中国首个音乐SOTA模型「天工音乐大模型」今日公测

    2024年4月17日,在「天工」大模型一周年之际,昆仑万维重磅宣布,「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测!一年前的今天,第一版天工大模型正式对外发布上线,一年来我们不断迭代模型,迭代应用产品,模型和应用都越做越好,以此回报广大用户的支持。「天工」系列大模型已集成了AI音乐、AI搜索、AI写作、AI长文本阅读、AI画图、AI语音合成、AI漫画创作、AI图片识别、AI代码写作、AI表格生成等多项能力,并将在未来加入AI视频功能,对标“超级应用”,成为人工智能时代的“超级大模型”。在“实现通用人工智能,让每个人更好地塑造和表达自我”的公司使命驱动下,昆仑万维将始终致力于AI技术与产品的创新开拓,不断提高AI产品的用户体验,与用户、研究人员、开发者们携手,共创国产大模型的未来。

今日大家都在搜的词: