首页 > 业界 > 关键词  > AI模型最新资讯  > 正文

StreamingLLM:让AI模型无限期平稳运行的一种方法

2023-10-08 09:27 · 稿源:站长之家

要点:

1. Meta、麻省理工学院 (MIT) 和卡内基梅隆大学 (CMU) 的研究人员介绍了一项名为StreamingLLM的技术,旨在解决大型语言模型(LLMs)在长时间对话中性能下降的问题。

2. StreamingLLM利用“attention sinks”(关注点汇)的概念,通过在对话的不同阶段重新引入初始标记,使LLMs能够在无限长度的文本上保持高性能。

3. 研究人员还提出了使用单个特殊标记作为“attention sink”来稳定LLMs的关注机制,从而在长时间对话中保持高性能。

站长之家(ChinaZ.com) 10月8日 消息:Meta、麻省理工学院 (MIT) 和卡内基梅隆大学 (CMU) 的研究人员最近发表的一篇新论文介绍了一项名为StreamingLLM的创新技术,旨在解决大型语言模型(LLMs)在长时间对话中性能下降的问题。

LLMs如OpenAI的ChatGPT和Meta的Llama2在当今的人工智能领域备受关注,但它们都面临一个共同的挑战,即在与用户的对话中始终提供高质量的响应,无论对话持续多长时间或交换的对话数量如何。这是因为LLMs在训练时是基于特定长度的数据块或序列进行预训练的,一旦用户输入的标记超过了这个长度,LLM的性能就会下降,这对企业希望在开放式对话中使用LLMs来帮助客户或员工是不可接受的。

云计算 互联网 元宇宙 (3)

图源备注:图片由AI生成,图片授权服务商Midjourney

StreamingLLM的解决方案是利用“attention sinks”概念,这些是在对话的不同阶段重新引入初始标记,以使LLMs能够在无限长度的文本上保持高性能。

研究人员发现,LLMs在对话或训练的早期会更加关注初始标记,因为它们对所有后续标记可见,而后续标记只对有限的后续标记可见。因此,通过在对话后期重新引入一些初始标记,用户可以有效地恢复LLM的性能。这就好比通过在对话后期使用与开始对话时相同的关键词,突然使LLMs在对话后期能够提供高质量的响应。

研究人员还提出了使用单个特殊标记作为“attention sink”的方法,通过在对话的不同阶段手动或自动重新引入此标记,可以持续保持LLMs的性能。这项技术使LLMs能够在无需频繁刷新缓存的情况下,不间断地为用户提供帮助。然而,研究人员也强调了这项技术的局限性,它并不扩展LLMs的上下文窗口,也不能确保LLM会记住对话的每个时刻的内容。

综合而言,StreamingLLM技术为LLMs在长时间对话中保持高性能提供了创新的解决方案,有望在许多领域,特别是需要持续不断地与用户交互的应用中得到广泛应用。

举报

  • 相关推荐
  • AI日报:夸克发布首个高考志愿大模型;Trae月活跃用户破100万;Manus推出免费无限聊天模式

    【AI日报】今日AI领域热点速览: 1. 夸克APP推出高考志愿大模型,免费提供个性化填报指导 2. Manus AI开放免费无限聊天模式,挑战行业巨头 3. Trae开发者平台月活破百万,累计交付60亿行代码 4. 迪士尼环球起诉Midjourney侵犯影视版权 5. 维基百科暂停AI生成摘要实验 6. 360发布"纳米AI超级搜索智能体",内置80多款大模型 7. PartCrafter项目实现单张图片生成高精度3D模型 8. Meta推出AI视频编辑工具,支持50多种预设效果 9. 阿里工程师放弃春节假期全力追赶DeepSeek技术 10. 火山引擎发布PromptPilot智能提示优化平台 11. OpenAI洽谈400亿美元融资,拓展AI生态系统 12. 新一代o3-pro推理模型发布并调整API定价策略

  • DigitalOcean 携手 AMD 推出 AMD Instinct MI300X GPU Droplet,加速 AI 创新

    DigitalOcean与AMD达成合作,将推出搭载AMD Instinct MI300X GPU的云服务器,支持AI/ML/HPC工作负载。该GPU具备192GB HBM3内存,能完整加载数十亿参数模型,显著提升训练和推理效率。服务定价每小时1.99美元起,支持1-8个GPU配置,并与Kubernetes无缝集成。未来还将推出MI325X GPU,并面向中国市场提供服务。此次合作旨在为开发者提供经济高效的AI开发解决方案,简化云端GPU部署流程。

  • AI之下,搜索获得“无限内容池”

    搜索引擎诞生20余年,其核心一直考验对于海量信息检索、分析、匹配以及呈现的能力。它一头是搜索技术,一头是内容池。 不夸张的说,如果搜索的能力是“巧妇”,可检索分析匹配的内容则是“米”,甚至在后搜索时代,搜索能力之间的差距在减小,用户有了更多的选择,但内容的数量和质量却参差不齐,用户搜索的体验大打折扣。 为了满足给用户更好的搜索体验,百�

  • 华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

    6月20日,华为发布盘古大模型5.5,五大基础模型全面升级。该模型采用业界首创的Triplet+Transformer统一预训练架构,能跨行业处理表格数据、时间序列数据和图片数据,显著提升预测精度和泛化能力。已在水泥、钢铁、电解铝、供热等多个工业场景落地应用:海螺水泥实现熟料强度预测,宝武钢铁高炉出铁温度合格率超90%,云南铝业年省电2600万度,天津供热能耗降低10%。模型聚焦工业领域,通过工艺优化和系统寻优,助力企业降本增效,推动行业智能化转型。

  • AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

    【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • Copy2AI三款AI软件上线,功能强大,免费无限制

    Copy2AI推出三款AI工具:智能剪贴板、智能创作助手和智能聊天助手。智能剪贴板能自动分类记录剪贴内容,支持语义搜索;智能创作助手提供灵感激发、风格转换等功能,助力内容创作;智能聊天助手可定制对话风格和角色。三款工具均完全免费、无功能限制,支持本地部署保障隐私安全,适用于职场人士、内容创作者、学生等多场景,旨在让AI技术真正触手可及,提升工作和

  • 思必驰RTOS大模型解决方案丨当玩具遇上AI,陪伴更有温度

    文章介绍了多款AI陪伴机器人产品,如LOVOT、Moflin、FoloToy等,它们通过创新交互方式引领消费新潮流。针对不同场景需求,思必驰推出RTOS大模型解决方案,融合智能对话技术与DFM-2大模型,整合第三方内容资源,赋予产品情感陪伴与寓教于乐功能。该方案具备智能打断、上下文记忆、多轮对话等能力,实现自然流畅的人机交互。在儿童教育领域,AI玩具可成为智慧伙伴,提供个性化学习支持。未来,AI赋能玩具将解锁更多应用场景,持续优化用户体验。

  • 董明珠回应老是骂人:是严格要求的另一种说法

    近日,ISO制冷压缩机国际标准全球发布会在珠海盛大举行。 格力电器董事长董明珠出席了此次发布会,并在会上表达了对格力电器科技人员的感谢。她称,感谢格力电器这四年来所有科技人员为这两项标准作出的贡献。

  • 国内有哪些ai大模型?一文看懂中国核心AI大模型全景

    近两年中国AI大模型发展迅猛,已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出;深度求索DeepSeek以1/10参数实现GPT-4级推理能力;月之暗面Kimi以20万汉字上下文窗口领跑长文本处理;智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型,覆盖超1000家医院。开源生态加速国产芯片适配,15家厂商完成深度优化。行业应用方面,工程文档效率提升60%,24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向,中国AI正从实验室走向产业变革前沿。