首页 > 业界 > 关键词  > Mamba最新资讯  > 正文

​丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了

2023-12-11 17:54 · 稿源: ​机器之心公众号

替代注意力机制,SSM 真的大有可为?为了用更少的算力让扩散模型生成高分辨率图像,注意力机制可以不要,这是康奈尔大学和苹果的一项最新研究所给出的结论。众所周知,注意力机制是 Transformer 架构的核心组件,对于高质量的文本、图像生成都至关重要。但它的缺陷也很明显,即计算

......

本文由站长之家合作伙伴自媒体作者“​机器之心公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • GitHub排名居首!雷池Web防火墙为何火遍中外

    雷池是GitHub上最热门的开源WAF项目之一,在同类项目中star数稳居首位。其成功源于:1)完全开源且维护活跃,打破国产开源项目"发布即弃坑"的刻板印象;2)功能强大,支持SQL注入、XSS等攻击检测,误报率低,防护效果媲美商业WAF;3)国际化程度高,海外用户占比超1/3;4)部署简单,提供可视化配置界面,新手也能快速上手;5)背靠长亭科技安全团队的技术支持。目前社区版装机量超35万台,成为开发者首选的Web应用防火墙解决方案。

  • AI日报:MiniMax-M1开源;阿里Qwen3升级版适配苹果MLX架构;月之暗面发布新模型Kimi-Dev-72B

    《AI日报》汇总了近期AI领域多项重要进展:1)月之暗面推出开源编程模型Kimi-Dev-72B,在软件工程任务测试中创下新纪录;2)MiniMax开源M1模型,支持超长上下文推理且训练成本低;3)腾讯发布AI音乐模型LeVo,支持音色克隆和分轨生成;4)阿里云Qwen3升级版适配苹果MLX架构;5)豆包推出"AI播客"功能,可将PDF转为对话播客;6)夸克App上线个性化AI家教"夸克老师";7)松下发布多模态大模型OmniFlow,实现文本/图像/音频自由切换;8)TikTok推出三款AI视频创作工具;9)极氪与火山引擎合作,将豆包大模型接入智能座舱系统;10)Meta的Llama3.1模型在文本记忆方面表现突出;11)Grok上线定时追踪X热门话题功能;12)Gemini2.5Pro即将更新Deep Think功能;13)谷歌地图引入AI技术升级导航和个性化推荐功能。

  • 苹果研究发现:AI 模型在遇到复杂难题时会“崩溃放弃”

    AI 的“推理能力”或许远没有我们想象中的那么强……

  • 预测大模型的工业生存法则,华为博士告诉你什么才是B端最需要的大模型!

    华为开发者大会2025期间,AI专家李良基与华为团队围绕预测大模型展开深度对话。华为提出"数据原子级表征体系"理念,旨在通过统一数据编码解决跨场景迁移难题。预测大模型已在钢铁行业成功应用,温度预测准确率远超传统方案。专家指出,AGI发展的核心在于构建知识迁移能力,未来将聚焦To B场景落地,通过统一架构实现跨领域泛化应用。华为云首创Triplet Transformer

  • 与时光和解的保养之道,Swisse NAD+科学焕活细胞力

    文章探讨了肌肤衰老与NAD+水平下降的关系。随着年龄增长,人体NAD+含量自然减少,导致细胞修复能力下降,表现为皮肤松弛、细纹增多。Swisse NAD+细胞焕活瓶创新性地采用烟酰胺核糖(NR)作为前体物质,能高效转化为NAD+。实验证明,连续使用两周可使体内NAD+水平提升22%,28天后胶原蛋白生成量增加35.9%。产品还科学配比维生素C、E等抗氧化剂,构建多维度肌肤防御体系:维生素C促进胶原合成,维生素E中和自由基。这种内外协同的作用模式不仅能改善氧化损伤,更能促进肌肤微循环,呈现由内而外的健康光泽。文章指出,真正的年轻态是细胞活力与岁月沉淀的完美平衡。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • 妈妈带顶流LABUBU花束接高考女儿:希望她能开心

    ​今日上午,江苏省选考化学、地理的考生顺利结束高考,完成了人生中这场意义非凡的“成人礼”。考场外,众多家长手捧精心准备的礼物,满心欢喜地等待着孩子凯旋,现场弥漫着温馨与喜悦的氛围。 在众多等待的家长中,一位姐姐手捧一束别出心裁的花束格外引人注目,花束中不仅有娇艳欲滴的鲜花,还搭配着当下顶流玩偶“labubu”。姐姐表示,妹妹平时就很喜欢“lab

  • 平板就是生产力!雷军带两部小米平板7 Ultra:一部会议 一部记笔记

    小米创始人雷军5月28日展示新款小米平板7+Ultra,配备14英寸OLED大屏,是小米史上最大平板。该设备搭载自研玄戒O1芯片,采用3nm工艺,10核CPU+16核GPU,性能达行业顶尖水平。内置PC级WPS办公软件,配合磁吸键盘可实现PC级办公体验。针对视频会议优化,内置会议工具箱支持降噪、同声传译等功能。配备八扬声器系统,带来立体声效。小米总裁卢伟冰强调,该平板在性能、视觉和体验上全面对标最高端iPad Pro。

  • 苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象

    有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。 苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。 并且,这些评估大都缺乏对思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。 为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、�

  • 有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型

    网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行,在多项数学推理任务中性能超越更大规模的通用模型,高考数学题测试得分达98.5分。其训练成本仅2.6万美元,推理性能是DeepSeek+R1的15倍,服务成本低至每百万token0.15美元,大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�