11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
【新智元导读】DeepSeek团队最新力作一上线,就获得Ai2研究所大牛推荐,和DeepSeek铁粉们的热情研读!他们提出的CodeI/O全新方法,通过代码提取了LLM推理模式,在逻辑、数学等推理任务上得到显著改进。DeepSeek团队成员的一举一动,都颇受圈内关注。JunxianHe还曾在FacebookAI研究院和Salesforce研究院工作过一段时间。
大语言模型还能向上突破,OpenAI再次证明了自己的实力。北京时间9月13日午夜,OpenAI正式公开一系列全新AI大模型,旨在专门解决难题。「除了新的o1系列模型,我们计划继续开发和发布我们的GPT系列模型。
【新智元导读】最近,德国研究科学家发表的PANS论文揭示了一个令人担忧的现象:LLM已经涌现出「欺骗能力」,它们可以理解并诱导欺骗策。相比前几年的LLM,更先进的GPT-4、ChatGPT等模型在欺骗任务中的表现显著提升。」「试图用人类意图来解释模型行为,是一种范畴误用。
魔搭社区与vLLM和FastChat展开合作,联合为中国开发者提供更快更高效的LLM推理和部署服务。开发者可以使用vLLM作为FastChat中的推理引擎,提供高吞吐量的模型推理。还可以结合FastChat和vLLM搭建一个网页Demo或者类OpenAIAPI服务器。
原本需要一张16万元的80GA100干的活,现在只需要一张不到2万元的24G4090就够了!上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。且不用量化,就用FP16精度,也能让40B模型在个人电脑上运行;如果加入量化,2080Ti也能流畅运行70B模型。现有的云端CPU也有强大的AMX计算单元支持,通过利用CPU、GPU间的异构特征,可以乐观地认为PowerInfer能够使用更少的高
LeCun在推特上引发了关于大语言模型推理能力的讨论,强调LLM缺乏真正的规划推理能力,其涌现能力实际上是上下文学习的结果。研究通过多个实验验证LLM在复杂规划任务上表现不佳,强调其能力受限于任务复杂度。随着对LLM的研究的不断深入,对其真实能力的理解也在逐渐清晰,为未来自然语言处理研究方向提供了有价值的参考。
FlashAttention团队最近推出了一项名为Flash-Decoding的新方法,旨在加速大型Transformer架构的推理过程,特别是在处理长上下文LLM模型时。这项方法已经通过了64k长度的CodeLlama-34B的验证得到了PyTorch官方的认可。这个新方法的推出为深度学习领域带来了更多的创新和性能提升。
来自普林斯顿、UIUC等机构的华人团队提出一个用于加速大型语言模型推理速度的简单框架Medusa,并于9月12日开源发布。测试结果显示,Medusa可以将LLM的生成效率提高约2倍。研究人员称正在积极扩展Medusa的应用场景,集成到更多的推理框架中,以获得更高的性能提升。
【新智元导读】打「排位赛」的大模型们背后秘密武器曝光!UC伯克利重磅开源神级LLM推理系统——vLLM,利用PagedAttention,比HuggingFace/Transformers快24倍,GPU数量减半。过去2个月,来自UC伯克利的研究人员给大语言模型们安排了一个擂台——ChatbotArena。团队的大部分成员同时也是LMSYS成员。