首页 > 业界 > 关键词  > 模型最新资讯  > 正文

Meta发布全新Megabyte模型 比Transformer快4成

2023-05-30 14:37 · 稿源:站长之家

站长之家(ChinaZ.com)5月30日 消息:最近,Meta团队开发了一款名为Megabyte的模型,声称能够解决“大模型标配”Transformer所存在的问题,而且速度比它还快4成!

目前,Transformer架构比较流行,但是存在两个重要的缺陷:一方面,自注意力成本随着输入和输出字节长度的增加而迅速增加,如音乐、图像或视频文件通常包含数兆字节,而大型解码器通常只使用几千个上下文标记;另一方面,前馈网络单独对字符组或位置进行操作是难以实现可扩展性的,这是由于在每个位置的基础上会带来很多计算开销。

1.jpg

而Megabyte模型则将输入和输出序列分成patch而不是单个的token。这种架构对于多数任务而言字节预测都相对容易,比如给定前几个字符预测完成单词等,这意味着大型网络中每个字节都是不必要的,并且内部预测可以使用更小的模型进行。这种方法解决了当今AI模型面临的可扩展性挑战,Megabyte模型的patch系统允许单个前馈网络在包含多个token的patch上运算,有效解决了自注意力缩放问题。

image.png

另外,在运算效率方面,与等大的Transformers和Linear Transformers相比,Megabyte在固定模型大小和序列长度范围内使用更少的token,这在相同的计算成本下允许使用更大的模型。

总的来说,这些改进使我们能够在相同的计算成本下训练更大、性能更好的模型,并且可以扩展到非常长的序列,同时在部署期间提高生成速度。综上所述,Megabyte模型的出现提供了一种新的、高效的方法来解决AI模型的发展中出现的一些问题。

论文链接:https://arxiv.org/abs/2305.07185

举报

  • 相关推荐
  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

  • 升级版“蓝心小V”亮相,豆包大模型助力vivo打造AI原生体验

    vivo发布全新OriginOS 6系统,升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同,实现精准意图识别与多模态交互,支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合,提供低延迟、高情感语音响应。同时拓展无障碍服务,为视障用户提供实时视觉辅助。未来将持续深化AI生态建设,打造更智能便捷的原生体验。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • 微算法科技(NASDAQ MLGO)研发基于AI的动态权重学习模型,开启区块链账户关联分析智能新时代

    微算法科技(NASDAQ MLGO)推出基于AI的动态权重学习模型,解决区块链账户关联分析中传统静态模型难以适应业务快速变化的问题。该模型采用分层架构,结合注意力机制LSTM、联邦学习等技术,实时捕捉交易模式演变,动态调整账户关联权重。在分片效率、风险控制、资源分配等领域应用效果显著,提升交易处理速度与欺诈识别率。未来计划融合多模态数据,探索量子机器�

  • 国内大模型GEO优化全攻略:免费工具教你监测品牌在文心一言、通义千问等AI平台的可见度

    AI搜索时代,品牌若未出现在AI回答中就等于"不存在"。GEO(生成引擎优化)成为新战场,核心是让AI在回答用户问题时优先引用企业内容。文章详解国内主流AI模型特点:文心一言整合百度生态、通义千问依托阿里电商数据、小众模型在垂直领域更易被引用。提出三大优化策略:内容结构化呈现、建立行业权威背书、布局高权重平台。推荐使用AIBase免费工具实时监测品牌在各大AI平台的曝光情况,通过数据驱动优化策略。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

今日大家都在搜的词: