苹果研究：将有限内存推理速度提高25倍

2023-12-21 10:49 · 稿源：站长之家

站长之家（ChinaZ.com）12月21日消息:近年来，大型语言模型（LLMs）在自然语言处理任务中表现卓越，但其对计算和内存的高需求对于内存有限的设备构成了挑战。

本文提出了一种在设备内存有限的情况下，通过将模型参数存储在闪存中，并在推断时按需将其加载到DRAM，实现了高效运行LLMs的方法。

论文地址:https://arxiv.org/pdf/2312.11514.pdf

方法包括构建与闪存内存行为协调的推断成本模型，通过减少从闪存传输的数据量和以更大、更连续的块读取数据的方式进行优化。

在这个框架内，引入了两种关键技术:窗口化策略通过重用先前激活的神经元来减少数据传输，行列捆绑技术通过适应闪存的顺序数据访问增加了从闪存读取的数据块的大小。

这两种方法使得能够运行比可用DRAM容量大两倍的模型，相较于朴素加载方法，CPU和GPU的推断速度分别提高了4-5倍和20-25倍。同时，结合稀疏感知、上下文自适应加载和硬件导向设计，为在内存有限的设备上进行LLMs推断打开了新的可能性。

（举报）

相关推荐

关键词：

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

2025年9月29日，深度求索公司发布新一代模型架构DeepSeek-V3.2，引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本，在V3.1-Terminus基础上引入稀疏注意力机制，优化长文本训练和推理效率。目前官方应用端已同步更新，API大幅降价。此次模型体积达671GB，下载需8-10小时。业内专家指出，此次快速适配表明双方早有深度技术协�

DeepSeek-V3.2 大模型架构稀疏注意力机制
远东股份：ALL IN“电能+算力+AI”，智能驱动未来

远东股份（600869）凭借“电能+算力+AI”战略，在能源与算力融合领域形成先发优势。公司深耕特高压输电、新能源等关键技术，自主研发高导铝绞线提升输电效率，产品应用于多条国家级特高压线路。同时布局液冷技术研发，为数据中心提供高效散热方案。未来将持续推进“AI+能源”产业生态建设，助力制造业智能化升级和绿色高效算能模式构建。

人工智能能源算力
Ballmer：微软不会给苹果留任何余地

冰冻三尺非一日之寒，微软与苹果之间的恩怨要追溯到上世纪90年代PC与Mac的激烈对阵，而两家的竞争直至现在也从未停止过。微软现任CEO Steve Ballmer也已经向软件商们许诺，微软将与苹果斗争到底。在本周微软全球合作者大会上，Ballmer称：“微软的目标很明确 — 不给苹果留下任何余地。”目前，微软即将发布的新产品有Windows Phone 8、Windows 8以及新一代Xbox。Ballmer则表示：

微软CEO 智能手机苹果
菲洛嘉医学科学升级，菲欧曼FILLMED让你逆转时光，定格青春

在岁月面前，我们总是感叹自己的无能为力，因为每个人都要经历身体从充满力量到步履蹒跚，肌肤从光滑水嫩到布满皱纹，因此延缓衰老、永驻青春，成为了女人们永恒的梦想，这份遐想从人参果、不老丹等历史传说中就充分体现出来了。对此，为了守护广大爱美人士的肌肤状态，让每个人相遇最好状态的自己， 1978 年由法国医学美容专家、细胞生物学家Dr。 Michel Tordjman 创建了菲洛嘉实验室。自创立以来，菲洛嘉医学便始终致力于抗衰老

菲欧曼FILLMED
Richard Stallman发布GNU C语言参考手册

GNU创始人RichardStallman最近一直致力于精心编写GNUC语言介绍和参考手册，今天他宣布了GNUC语言介绍和参考手册，以涵盖GNU对C编程语言的扩展...如果你了解编程的基本概念，但对C语言一无所知，你可以从头开始按顺序阅读本手册，也可以用来学习C语言...如果你是编程的初学者，建议你首先学习一种具有自动垃圾收集和无显式指针的语言，而不是从C语言开始，其中一些好的选择包括Lisp、Scheme、Python和Java...有兴趣的计算机爱好者可以先阅读Stallman的公告：......

RichardStallma Stallman GNUC语言
APOLLO年中展望：在滞胀的十字路口——下一步是什么？

美国关税政策调整引发经济波动。特朗普政府推行的新关税制度使平均关税率升至15.8%，为近90年来最高水平，加剧市场不确定性。经济学家预测经济增长放缓、通胀上升，利率将长期维持高位。企业投资计划波动加剧，消费者信心下滑，预计2025年美国GDP增长仅1.2%。尽管衰退概率上升至25%，但专家认为短期内不会出现全面衰退，供需双方均面临阻力。全球经济增长预期下调至2.6%，低于此前3%的预期。

美国关税经济增长市场波动
安生乔恩整形医师余斌为FILLMED交流会带来三节大师课

余斌作为FILLMED艺术填充臻选注射医师、美国舒铂面部假体指定临床手术专家、诺鼻尔美鼻整形大赛金奖获得者，在为期 3 天的学术盛宴中，先后带来了关于艺术填充、鼻整形、面部假体手术三节大师课，受到现场嘉宾的们的一致好评...2019 年，以色列医疗整形发展组织对余斌的技术能力和成果案例给予高度评价，特邀余斌医生成为以色列整形美容推广大使，希望共同推动整形美容在中国乃至世界的发展......

医疗整形鼻综合整形整形外科
LLM Guard：增强LLM安全性的开源工具包安全使用各种等模型

LLMGuard是一个旨在增强大型语言模型安全性的开源工具包，旨在简化LLMs在企业中的安全采用。它的设计目的是为了轻松集成和部署在生产环境中，为LLMs的输入和输出提供广泛的评估，包括清理、检测有害语言和数据泄漏，以及防止注入和越狱攻击。这一工具包的推出将有望促进大型语言模型在企业中的更广泛应用，为企业提供了更好的安全保障和可控性，从更加自信地采用这一新兴技术。

LLMGuard ChatGPT
三星全线产品亮相北京京东MALL 全场景呈现有AI的科技·艺术·家

9月12日，三星家电以“AI的呵护”为主题在北京京东MALL举办线下体验展，集中展示搭载AI技术的全线产品，包括冰箱、洗衣机、电视及手机等。重点展出了荣获IFA创新奖的AI神·黑钻热泵洗烘旗舰等产品，通过五大主题展区呈现科技与艺术融合的家电新形态。观众可现场体验食材管理、衣物护理等智能功能，感受AI技术带来的生活便利。展览将持续至9月17日，并提供互动礼品。

三星家电 AI科技线下体验展
AutoLLM：在几秒钟内创建基于 RAG 的 LLM Web 应用程序！

AutoLLM是一个强大的工具，能够让您在几秒钟内部署基于Retrieval-AugmentedGeneration的大型语言模型Web应用。它为开发人员提供了一种简化、统一和增强LLM应用程序的方式，具备多项核心功能，包括支持100多种LLM模型、统一API、20多种向量数据库、成本计算、以及一键将LLM引擎转换为FastAPI应用的能力。5.快速部署:通过AutoLLM，您可以轻松将LLM引擎转换为FastAPI应用，以便快速部署Web应用程序。

AutoLLM

今日大家都在搜的词：

热文

3 天
7天

苹果研究：将有限内存推理速度提高25倍

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

远东股份：ALL IN“电能+算力+AI”，智能驱动未来

Ballmer：微软不会给苹果留任何余地

菲洛嘉医学科学升级，菲欧曼FILLMED让你逆转时光，定格青春

Richard Stallman发布GNU C语言参考手册

APOLLO年中展望：在滞胀的十字路口——下一步是什么？

安生乔恩整形医师余斌为FILLMED交流会带来三节大师课

LLM Guard：增强LLM安全性的开源工具包安全使用各种等模型

三星全线产品亮相北京京东MALL 全场景呈现有AI的科技·艺术·家

AutoLLM：在几秒钟内创建基于 RAG 的 LLM Web 应用程序！

今日大家都在搜的词：

热文

比特币价格突破12.5万美元刷新历史最高纪录

腾讯混元图像3.0登顶LMArena榜一

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

小米回应“小米汽车突然自己开走”：排除车辆质量问题

马斯克个人财富达5000亿美元特斯拉市值飙升助力

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

比特币价格突破12.5万美元刷新历史最高纪录

小米17 1TB版明日开售售价5299元

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

站长商机