微软发布小型语言模型Orca 2：仅7亿/13亿参数，媲美Llama-2-Chat-70B

2023-11-21 16:10 · 稿源：站长之家

**划重点:**
1. 📊 *Orca2模型在零样本测试中，涵盖语言理解和常识推理等15个多样化基准测试中，与五到十倍更大的模型相匹敌或胜过。
2. 🌐 微软开源了两个规模为7亿和13亿参数的Orca2模型，旨在促进对更小型模型的研究，这有助于有限资源的企业更经济地解决特定应用场景。
3. 🧠 与传统的模仿学习不同，微软研究人员通过精心设计的合成数据集，教授Orca2模型使用不同的解决方案策略，为不同任务提供最有效的解决方案策略。

站长之家（ChinaZ.com）11月21日消息:在OpenAI发生权力斗争和大规模辞职的时刻，微软作为AI巨头的长期支持者，依然在其人工智能努力上不懈努力。微软公司的研究部门今日发布了Orca2，这是一对小型语言模型，经测试在复杂推理任务的零样本设置中，与Meta的Llama-2Chat-70B等五到十倍大的语言模型相匹敌或更胜一筹。

这两个模型分别具有7亿和13亿个参数，是在几个月前展示了强大推理能力的原始13B Orca模型的基础上进行的改进。微软研究人员在一篇联合博客中写道:“通过Orca2，我们继续展示改进的训练信号和方法可以使较小的语言模型获得增强的推理能力，这通常只在更大型的语言模型中找到。”

公司已经将这两个新模型开源，以促进对能够与更大模型一样出色执行的较小模型的开发和评估的进一步研究。这项工作为那些资源有限的企业提供了更好的选择，以解决目标用例而无需过多投资于计算能力。

针对小型模型缺乏推理能力的问题，微软研究决定通过在高度定制的合成数据集上对Llama2基础模型进行微调来解决这一差距。与常用的模仿学习技术不同，研究人员训练模型在不同任务中采用不同的解决方案策略。他们的理念是，较大模型的策略并不总是完美适用于较小模型。例如，GPT-4可能能够直接回答复杂问题，但没有这种能力的较小模型可能通过将相同任务分解为几个步骤而受益。

研究人员在今天发表的一篇论文中写道:“在Orca2中，我们教授模型各种推理技巧（逐步，回忆然后生成，回忆-推理-生成，直接回答等）。更关键的是，我们旨在帮助模型学会为每个任务确定最有效的解决方案策略。”项目的训练数据是从更强大的教师模型中获得的，以这样一种方式获取数据，以教授学生模型处理如何使用推理策略以及何时对手头的特定任务使用它。

在15个多样化的基准测试中，涵盖语言理解、常识推理、多步推理、数学问题解决、阅读理解、摘要和真实性等方面，Orca2模型在零样本设置中表现出色，大多数情况下匹配或超过了五到十倍规模更大的模型。

所有基准测试结果的平均值显示，Orca2的7B和13B版本胜过了Llama-2-Chat-13B和70B以及WizardLM-13B和70B。唯独在GSM8K基准测试中，包含8.5K高质量小学数学问题，WizardLM-70B的表现确实比Orca模型和Llama模型更为出色。

尽管这些性能对于希望在经济应用中获得小型高性能模型的企业团队来说是个好消息，但值得注意的是，这些模型也可能继承其他语言模型以及它们微调的基本模型的常见限制。

微软补充说，用于创建Orca模型的技术甚至可以应用于其他基础模型。研究团队写道:“尽管它有一些局限性...，但是Orca2在未来推理、专业化、控制和较小模型的安全性方面的潜力是显而易见的。对精心筛选的合成数据进行后训练在这些改进中是一个关键策略。随着更大的模型不断取得进展，我们与Orca2的合作在多样化语言模型的应用和部署选项方面迈出了重要一步。”

随着Orca2模型的开源发布和该领域正在进行的研究，可以安全地说未来可能会涌现更多高性能的小型语言模型。

六个月前在巴黎创立并以其独特的Word Art标志和创纪录的1.18亿美元种子轮融资引起轰动的Mistral AI公司，也提供了一个7亿参数的模型，优于Meta的Llama213B（Meta较新模型中的较小型号之一）。

微软博客介绍:https://www.microsoft.com/en-us/research/blog/orca-2-teaching-small-language-models-how-to-reason/

（举报）

相关推荐

关键词：

AI最新资讯在哪里看？AIbase：高效获取国内外AI新闻头条与行业动态

文章探讨了AI时代信息过载的困境：有价值的前沿动态、重磅模型发布和行业解读分散各处，筛选成本高、效率低下。AIbase资讯导航站应运而生，通过四大核心功能解决痛点：1)聚合主流信源，过滤低质噪音；2)结构化分类呈现大模型动态、行业应用等六大板块；3)提炼核心要点，拒绝标题党；4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达"，帮助用户节省70%信息搜集时间，将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

人工智能 AI资讯科技媒体
主论坛前瞻｜「拥抱AI变革，点燃算网引擎」：ODCC邀您探索算网新世界

2025年第十二届开放数据中心大会（ODCC）将于9月9-11日在北京举行。大会聚焦AI变革与算力发展，围绕算力、网络、能源、制冷、运维等全链路协同展开讨论。华为、三星、博通等企业将分享最新实践，探讨液冷技术、智能运维等关键议题。主论坛将于9月10日举行，发布年度成果并解读技术趋势。大会旨在推动算力产业标准化发展，为AI时代提供系统性解决方案。

开放数据中心大会 ODCC2025 AI变革
荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

本文介绍了AI领域最新动态：1)快手可灵2.1推出首尾帧功能，提升视频生成效果；2)昆仑万维发布Mureka V7.5音乐模型，优化人声表现；3)腾讯云推出AI开发工具CloudBase AI CLI，可减少80%编码量；4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验；5)Meta开源DINOv3视觉模型，无需标注即可实现卓越性能；6)宇树科技人形机器人H1获1500米赛跑金牌；7)谷歌Gemini新增记忆功能和隐私聊天模式；8)香港大学开源OpenCUA框架，打造个性化电脑助手；9)OpenAI考虑在ChatGPT引入广告；10)谷歌发布超小型开源模型Gemma 3 270M，支持手机端运行。

AI日报快手可灵视频生成
CCF HPC China 2025 | KunLun HPC解决方案赋能多行业创新升级并获全国产异构创新HPC解决方案奖

8月13-16日，第21届CCF全国高性能计算学术年会在鄂尔多斯召开。本届大会以"绿动计算超智融合"为主题，汇聚顶尖学术阵容，展示全产业链成果与前沿趋势。河南昆仑技术有限公司重点展示双生态硬件平台、极致性能软件平台、应用迁移调优服务等HPC全栈解决方案。其KunLun HPC解决方案实现100%国产化，兼容x86设备，具备东西方双生态兼容、高性能、高能效等五大特点，并获全国产异构创新HPC解决方案奖。昆仑技术同期发布KunLun V2系列服务器产品，助力科研转化和行业智能化升级。多位专家在主题论坛分享国产超算软件生态建设经验，强调需持续投入构建自主可控的超算软件生态。昆仑技术表示将持续深耕高性能计算领域，推动行业向智能高效方向发展。

高性能计算 CCF HPC
安全智能体引领防御变革 ISC.AI 2025论坛呈现多维度实践成果

ISC.AI2025安全智能体技术论坛在北京召开，聚焦AI赋能网络安全新范式。论坛汇集专家与企业代表，围绕安全智能体的实战应用、技术架构及行业落地展开研讨。360集团提出安全智能体需具备感知、推理、决策等四大能力，并展示了终端防护、流量分析等场景的智能解决方案。专家指出，AI驱动的攻击防御已成趋势，需构建自动化、通用化的安全体系。论坛成果为数字时代安全防御体系的智能化升级提供了实践路径。

安全智能体网络安全 AI赋能
荐“无限量”供应Claude，就是AI IDE们的百亿补贴

Anthropic于2025年7月28日宣布，将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用，一次使用成本甚至高达数万美元，远远超过普通订阅预期。同样在上个月，Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制，导致大量用户抱怨“实际上并非无限”，纷纷在社群中吐槽，迫使公司CEO出面道歉、甚至给出退款补偿。这两�

文章搜索核心标签 AI工具
ISC.AI 2025智能体驱动产业创新论坛圆满召开

8月6日，第十三届互联网安全大会智能体驱动产业创新论坛在北京召开。论坛汇聚产学研专家，围绕AI技术前沿、智能体研发与产业落地展开研讨，探讨技术创新与产业融合趋势。与会专家指出，智能体发展需兼顾技术突破与安全可控，构建开放协同的产业生态。会议展示了智能体在金融、制造等领域的应用成果，强调技术安全双轮驱动的重要性，呼吁共建智能体发展共同体，推动产业变革。

AI技术智能体研发产业融合
荐AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测试；小红书发布DynamicFace人脸生成技术

本期AI日报聚焦多项AI领域创新：1）阿里开源Qwen-Image-Edit图像编辑模型，支持中文渲染与精准文本编辑；2）淘宝测试"AI万能搜"功能，重构电商搜索体验；3）小红书发布DynamicFace人脸生成技术，实现高质量图像视频换脸；4）Gemini API新增URL Context功能，简化网页内容获取流程；5）Nvidia推出小型开放模型Nemotron-Nano-9B-v2，支持智能推理开关；6）马斯克发布Grok Imagine 0.1测试版，进军AI图像生成领域；7）Vercel推出iOS版AI开发工具v0；8）理想汽车发布MindGPT 3.1模型，处理速度提升5倍；9）ToonComposer工具简化动画制作流程；10）ElevenLabs推出视频到音乐生成流程。

AI 开源图像编辑
哪里找最新AI工具官网？如何快速对比ChatGPT替代品？AI工具导航指南 - AIbase

文章探讨了在AI工具爆炸式增长的时代，用户面临的信息过载和筛选困难问题。主要内容包括：1）AI领域迭代速度远超传统软件，个人追踪信息效率低下且容易错过关键更新；2）AIbase.cn平台致力于解决这一问题，通过聚合主流AI工具、严格审核信息来源、持续更新行业动态；3）平台提供多维对比功能，结构化呈现工具参数，帮助用户快速定位适合需求的解决方案；4）建议用户定期浏览平台资讯栏目，善用搜索筛选功能，通过对比视图做出明智选择。核心价值在于降低信息筛选成本，让用户更高效地获取有价值的AI工具和前沿资讯。

AI工具导航信息筛选参数对比
ISC.AI PARK：科技博主集体打卡！AI原来可以这么“酷”

ISC.AI2025大会8月6-7日在北京国家会议中心成功举办，以"ALL IN AGENT"为主题。展会全新升级为"ISC.AI PARK"，吸引超万名观众参观。360集团、华为、百度智能云等科技巨头及行业领军企业参展，集中展示了AI与数字安全领域的前沿技术和创新应用。AI互动区设置办公、生活、娱乐等场景体验，机器人表演、智能设备等吸引观众驻足。科技博主现场互动体验AI赋能安全行业的产品，直观感受AI技术带来的变革。大会展现了AI技术在各领域的融合应用，推动构建更安全智能的世界。

ISC.AI2025 AI互动黑客集市

今日大家都在搜的词：

热文

3 天
7天

微软发布小型语言模型Orca 2：仅7亿/13亿参数，媲美Llama-2-Chat-70B

AI最新资讯在哪里看？AIbase：高效获取国内外AI新闻头条与行业动态

主论坛前瞻｜「拥抱AI变革，点燃算网引擎」：ODCC邀您探索算网新世界

荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

CCF HPC China 2025 | KunLun HPC解决方案赋能多行业创新升级并获全国产异构创新HPC解决方案奖

安全智能体引领防御变革 ISC.AI 2025论坛呈现多维度实践成果

荐“无限量”供应Claude，就是AI IDE们的百亿补贴

ISC.AI 2025智能体驱动产业创新论坛圆满召开

荐AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测试；小红书发布DynamicFace人脸生成技术

哪里找最新AI工具官网？如何快速对比ChatGPT替代品？AI工具导航指南 - AIbase

ISC.AI PARK：科技博主集体打卡！AI原来可以这么“酷”

今日大家都在搜的词：

热文

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测

华为余承东官宣：鸿蒙智行首款旅行车享界S9T今日开启预售

REDMI Note 15 Pro+外观公布：配备全等深微曲屏幕与机身

真我15系列官宣9月发布号称轻薄影像神器

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

华为MatePad Air 12英寸2025发布：售价2799元起

苹果正式入驻小红书 iPhone 17系列下月发布

AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型M

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

REDMI Note 15 Pro系列官宣下周发布

站长商机