发布一天，Code Llama代码能力突飞猛进，微调版HumanEval得分超GPT-4

2023-08-27 15:08 · 稿源：机器之心公众号

昨天（8月25日）的我:在代码生成方面开源 LLM 将在几个月内击败 GPT-4。现在的我:实际上是今天。昨天，Meta 开源专攻代码生成的基础模型 Code Llama，可免费用于研究以及商用目的。Code Llama 系列模型有三个参数版本，参数量分别为7B、13B 和34B。并且支持多种编程语言，包括 Pyt

......

本文由站长之家合作伙伴自媒体作者“机器之心公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

荐ChatGPT/GPT-4/Llama电车难题大PK！小模型道德感反而更高？

微软对大语言模型的道德推理能力进行了测试，但在电车问题中大尺寸的模型表现反比小模型差。但最强大语言模型GPT-4的道德得分依旧是最高的。这与研究最初的假设:大型模型总是比小型模型具有更强的能力相反，说明利用这些较小的模型开发道德系统具有很大的潜力。

ChatGPT GPT-4
蚂蚁集团开源代码大模型CodeFuse-CodeLlama-34B 4bits量化版本

蚂蚁集团代码大模型CodeFuse-CodeLlama-34B4bits量化版本发布。CodeFuse-CodeLlama-34B-4bits是CodeFuse-CodeLlama-34B模型的4bits量化版本，后者是通过QLoRA对基座模型CodeLlama-34b-Python进行多代码任务微调得到的代码大模型，模型输入长度为4K。CodeFuse是蚂蚁自研的代码生成专属大模型，根据开发者的输入提供智能建议和实时支持，帮助开发者自动生成代码、自动增加注释，自动生成测试用例，修复和优化代码等，以提升研发效率。
对标GPT-4代码解释器！港中大让模型写代码解决数学难题，得分超越GPT-4

对标GPT-4代码解释器，港中大最新研究放了个“大招”:他们开发了一个叫做MathCoder的大模型，数学能力直接在竞赛级“题库”Math上超过GPT-4。做到这一点靠的就是无缝集成代码的能力——在遇到数学问题时，它不仅能用自然语言推理能自动编写和执行代码来建模、推导公式与方程。通讯作者为李鸿升，为港中大电子工程系副教授，同时也就职于上海人工智能研究室。

GPT-4 MathCoder
Meta悄然发布Llama 2 Long AI，在某些任务上击败GPT-3.5 Turbo和Claude 2

MetaPlatforms在9月29日发布了一篇计算机科学论文，介绍了其新发布的Llama2LongAI模型。该模型在某些任务上击败了GPT-3.5Turbo和Claude2，这表明Meta的开源方法在生成人工智能领域取得了重大进展。该模型的开源性也表明，开源方法在这一领域具有竞争力。

Meta Llama2 AI头条
几千元训完中文版LLaMA2！Colossal-LLaMA-2把大模型门槛打下来了！

从头预训练大模型被认为需要高达5000万美元的投资，这让很多开发者和中小企业望却步。Colossal-LLaMA-2的出现降低了大模型的门槛。该方案业已应用到多个行业领域，构建垂类大模型并取得良好效果。

Colossal
昆仑万维：天工大模型推理能力超过GPT-3.5和LLaMA2

昆仑万维表示，其自研的天工大模型在BenchmarkGSM8K测试中取得了80%的正确率，超过了GPT-3.5和LLaMA2-70B，达到了全球领先水平，接近于GPT-4。天工大模型还在MMLU、C-EVAL、HumanEval等多个数据集上表现出色，准确率均高于其他主流大模型。天工大模型目前仍处于内测阶段，将持续提升技术实力，为用户和企业提供强大的智能化助力。
Meta悄然发布Llama 2 Long AI模型

Meta最近发布了Llama2LongAI模型，该模型在一些任务上超越了GPT-3.5Turbo和Claude2。通过改进训练方法和编码技术，Meta的研究人员提高了这个AI模型的性能，使其能够更好地处理长文本和复杂任务。强调了合作的重要性，指出不是每个企业都拥有高级的数据工程和数据科学技能，因此需要与具有相关技术和深刻了解整个领域的合作伙伴合作来解决这一问题。

Meta
智谱AI发布MathGLM数学模型算术任务性能优于GPT-4

智谱AI发布MathGLM数学模型，旨在增强大模型在数学推理方面的性能。它能够精确计算算术运算，包括基础算术运算和复杂混合运算，并提升模型的中文数学解决能力。MathGLM还在解决不同年级数学问题和数学应用题上进行了实验，取得了较好的结果。
Meta发布Llama 2-Long模型处理长文本计算量需求减少40%

Meta最新发布的Llama2-Long模型引领着处理长文本的革命。这个模型不仅处理长文本输入在不显著增加计算需求的情况下，保持了卓越性能。它不仅改进了处理长文本的性能通过创新策略为该领域注入了新的活力。

Meta AI头条
荐机器人研究迎来ImageNet时刻：一个数据集，让DeepMind具身智能大模型突飞猛进

在大模型不断取得突破的2023，把大模型当做大脑来辅助运行的具身智能机器人研究也在被迅速推进。2个多月前，谷歌DeepMind推出了第一个控制机器人的视觉-语言-动作模型——RT-2。未来的另一个方向是进一步探索不同数据集的混合会如何影响跨具身智能体泛化，以及这种泛化是如何是实现的。

ImageNet 机器人 DeepMind

热文

3 天
7天

发布一天，Code Llama代码能力突飞猛进，微调版HumanEval得分超GPT-4

荐ChatGPT/GPT-4/Llama电车难题大PK！小模型道德感反而更高？

蚂蚁集团开源代码大模型CodeFuse-CodeLlama-34B 4bits量化版本

对标GPT-4代码解释器！港中大让模型写代码解决数学难题，得分超越GPT-4

Meta悄然发布Llama 2 Long AI，在某些任务上击败GPT-3.5 Turbo和Claude 2

几千元训完中文版LLaMA2！Colossal-LLaMA-2把大模型门槛打下来了！

昆仑万维：天工大模型推理能力超过GPT-3.5和LLaMA2

Meta悄然发布Llama 2 Long AI模型

智谱AI发布MathGLM数学模型算术任务性能优于GPT-4

Meta发布Llama 2-Long模型处理长文本计算量需求减少40%

荐机器人研究迎来ImageNet时刻：一个数据集，让DeepMind具身智能大模型突飞猛进

热文

华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉

黄仁勋：总感觉公司快倒闭了任CEO没有趣味每一秒都有压力

苹果iOS 26公测版本周发布：预计7月23日亮相

华为Pura 80标准版7月23日开启预售

特斯拉Model3全球销量达300万辆夏日福利大放送

小米REDMI首部短剧《时空合伙人》收官雷军“声音”亮相成惊喜

京东首家自营外卖门店开业宣布 3 年内建设 1 万家七鲜小厨

雷军称特斯拉保值率非常不错但小米SU7保值率领先特斯拉

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

华为鸿蒙智行：尊界S800上市50天大定破8000台

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

华为MatePad Pro 12.2开启预约预计7月24日正式发布

华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

小米骨传导耳机2发布：699元 7月21日开售

小米深圳大厦开园：卢伟冰现场喝小米粥

理想i8开启预定：7月29日上市预售价35-40万元

A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉

站长商机