11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
2025年9月29日,深度求索公司发布新一代模型架构DeepSeek-V3.2,引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本,在V3.1-Terminus基础上引入稀疏注意力机制,优化长文本训练和推理效率。目前官方应用端已同步更新,API大幅降价。此次模型体积达671GB,下载需8-10小时。业内专家指出,此次快速适配表明双方早有深度技术协�
AI编程模型的开源王座易主了!Qwen2.5-Coder-32B正式发布,霸气拿下多个主流基准测试SOTA,彻底登上全球最强开源编程模型宝座。更重要的是,在代码能力的12个主流基准上,Qwen2.5-Coder-32B与GPT-4o对决,斩获9胜,一举掀翻闭源编程模型的绝对统治。可以期待一下~关于Qwen2.5-Coder的更多信息,可直接通过下方链接了解。
【新智元导读】PlaygroundResearch推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自去年以来,文本到图像生成模型取得了巨大进展,模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。多语言能力得益于语言模型天生能够理解�
【新智元导读】LLM不会规划,大推理模型o1可以吗?ASU团队最新研究发现,o1-preview推理规划能力是所有模型之最,但仍未触及天花板。团队希望这份研究报告能够很好地展示LLM和LRM的规划能力,并为如何切实评估它们提供有用的建议。
【新智元导读】LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主TimothyGowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude3.5也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上,如今所有的LLM都失败了!几天前,菲尔兹奖得主、剑桥大学研究主任TimothyGowers直接拿GPT-4o开刀,去解决动物过河难题。LLM的未来究竟走向何处?最大的未知变量也许就在于,我们是否还能发现类似思维链这种解锁模型性能的「大杀器」了。
【新智元导读】Anthropic发布最新研究,发现Claude3Opus的说服力与人类大致相当,该成果在评估语言模型说服力方面迈出了重要的一步。人工智能模型在对话说服力方面表现如何?对这一问题大家可能都心存疑惑。Anthropic也表示,他们已经采取了一系列措施来降低Claude被用于破坏性事件的风险。
用AMD的软硬件系统也能训练GPT-3.5级别的大模型了。位于美国橡树岭国家实验室的全世界最大的超算Frontier,集合了37888个MI250XGPU和9472个Epyc7A53CPU。整个系统拥有602112个CPU核心,4.6PBDDR4内存。
2023年的LLM开源社区都发生了什么?来自HuggingFace的研究员带你回顾并重新认识开源LLM2023年的大语言模型,让几乎所有人都燃起了热情。现在大多数人都知道LLM是什么,以及可以做什么。常用的方法包括bitsandbytes、GPTQ和AWQ。
在众多开源的大型语言模型中,如LLaMA、Falcon和Mistral等,大多数仅公开了特定组件,如最终模型权重或推理脚本。技术文档通常集中在更广泛的设计方面和基本指标上,限制了该领域的进展,因为训练方法的清晰度不足,导致团队不断努力揭示训练过程的众多方面。如果您喜欢他们的工作,不要忘记加入MLSubReddit、Facebook社群、Discord频道和电子邮件通讯,以获取最新的AI研究新闻和有趣的AI项目。
开源模型在人工智能领域展现强大活力,但闭源策略限制了LLM的发展。邢波团队提出的LLM360全面开源倡议旨在解决这一问题。这一全面开源的趋势有望促进更多研究者的参与与合作,推动人工智能技术的不断创新。