首页 > 业界 > 关键词  > Orca-Math最新资讯  > 正文

微软AI研究推数学LLM Orca-Math:通过对Mistral-7B模型进行微调的7B参数小模型

2024-03-11 09:41 · 稿源:站长之家

**划重点:**

1. 🚀 微软推出Orca-Math,一款由7亿参数构建的小语言模型,通过对Mistral-7B架构进行微调。

2. 🎓 Orca-Math通过创造性的合成数据集和迭代学习机制,重新定义了教授数学单词问题的传统方法。

3. 📈 Orca-Math在GSM8K基准上取得了显著的成就,展示了SLM在教育挑战中的潜力,提供了创新方法和资源的范例。

站长之家(ChinaZ.com)3月11日 消息:微软研究团队引领着教育技术领域的不断创新,近日推出了一款名为Orca-Math的前沿工具,它是一款小语言模型(SLM),拥有7亿参数,并基于Mistral-7B架构微调而来。这一创新方法重新定义了传统数学单词问题教学的策略,彻底改变了学生参与和掌握这一学科的方式。与以往常常依赖广泛的模型调用和外部工具进行验证的方法不同,Orca-Math以其简化而高效的解决方案脱颖而出。

image.png

Orca-Math的方法论的核心是一个由20万道数学问题组成的精心制作的合成数据集。然而,Orca-Math的真正巧妙之处在于其迭代学习过程。在模型遍历这个数据集时,它尝试解决问题并获得对其努力的详细反馈。这个反馈循环丰富了偏好对比,将模型的解决方案与专家反馈进行对比,促进了一个学习环境,使模型不断完善其解决问题的能力。

这种迭代学习机制对于Orca-Math的成功至关重要。最初,仅在合成数据集上进行监督微调(SFT)时,Orca-Math展示了令人印象深刻的能力,在GSM8K基准上实现了81.50%的准确率。然而,引入迭代偏好学习将Orca-Math推向了新的高度,使其在相同基准上达到了86.81%的准确率。这些数字代表了在利用SLM解决教育挑战方面的一大步前进。考虑到模型的规模和其高效运行的效率,Orca-Math的成就尤为显著,超过了规模显著更大的模型,并在该领域设立了新的基准。

微软研究的Orca-Math不仅在性能上超越了现有的大型模型,而且还以卓越的效率完成了这一壮举,利用更小的数据集。这一壮举突显了SLM在配备正确方法和资源的情况下的潜力。Orca-Math在GSM8K基准上的表现证明了所开发方法的有效性,突显了该模型在解决机器长期以来难以处理的数学问题方面的娴熟能力。这一努力还展示了当SLM配备创新技术,如合成数据生成和迭代学习时,它们的变革力量。

Orca-Math体现了一种突破性的学习方法,将人工智能和教育的领域融合在一起,以应对教授复杂问题解决技能的长期挑战。通过利用SLM通过合成数据集和迭代反馈来解锁学习工具的全新时代,Orca-Math为技术和学习手牵手走向解锁全球学生的全部潜力的未来提供了一瞥。

论文地址:https://arxiv.org/abs/2402.14830

官方博客:https://www.microsoft.com/en-us/research/blog/orca-math-demonstrating-the-potential-of-slms-with-model-specialization/

举报

  • 相关推荐
  • 荣耀Magic8 Ultra有望明年1月发布:7000mAh大电池、外观更尊

    今日,数码博主智慧皮卡丘”曝光了一款荣耀新旗舰,结合其配置与定位来看,预计为荣耀Magic8 Ultra。 该博主透露,荣耀Magic8 Ultra暂定明年1月发布,采用更尊贵的外观设计,正面为等深四曲屏,电池容量超过7000mAh。

  • AI日报:xAI推出Grok 4.1;OceanBase发布首款AI数据库seekdb;Kimi K2成功接入Perplexity

    本期AI日报聚焦多项技术突破:蚂蚁集团"灵光"AI助手实现30秒生成可编辑应用;xAI推出免费Grok 4.1模型显著提升质量与速度;Poe推出200人群聊功能支持多模型协作;OceanBase发布首款AI数据库seekdb实现混合搜索;国产模型Kimi K2接入Perplexity展现国际竞争力;谷歌DeepMind推出通用智能体SIMA2在3D游戏中任务完成率达62%;ElevenLabs升级为一站式内容生成平台;昆仑万维推出轻量级多模态智能体Skywork R1V4-Lite,用户拍照即可自动完成任务。

  • AI日报:百度发布文心5.0;可灵2.5Turbo模型上线“首尾帧”功能;微博推出 VibeThinker-1.5B

    本期AI日报聚焦多项技术突破:OpenAI推出GPT-5.1,提升对话自然度与响应速度;百度发布原生全模态大模型文心5.0,支持跨文本图像生成;微博开源VibeThinker-1.5B模型,以低成本实现高效推理;可控视频生成模型新增首尾帧控制功能;李飞飞团队推出商用3D世界生成工具Marble;东北大学开源多语言翻译模型支持60种语言;谷歌Gemini语音功能升级实现更自然交互;阿里启动“千问”项目对标ChatGPT,全面布局C端AI应用竞争。

  • 小米最强旗舰!卢伟冰回国 网友:要准备小米17 Ultra了

    小米17+ Ultra预计12月发布,已备案。配备双卫星通信技术,支持天通一号卫星通话和北斗短报文,无地面网络时仍可保持通信。影像系统是核心卖点,主摄采用新一代LOFIC技术,提升高光场景表现,减少过曝。搭载骁龙8至尊版旗舰平台,电池容量6000-7000mAh,支持无线充电和超声波屏下指纹。正面直屏,背部大圆镜头模组,后置1英寸超大底主摄及2亿像素潜望长焦。

  • 字节旗下AI编程工具TRAE SOLO发布 面向所有用户开放

    字节跳动AI编程工具TRAE SOLO正式版发布,面向国际用户开放。该工具提供IDE和SOLO两种开发模式:IDE模式在保留原有流程基础上增强智能问答、代码补全等AI能力;SOLO模式以AI为主导,能理解开发目标、调度工具并独立完成从需求分析到代码实现的全流程。这标志着AI编程从工具增强迈入流程重构新阶段,实现覆盖软件开发全流程的高度自动化。

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • 华为Mate X7首发定制20GB内存:本月见

    博主定焦数码爆料,华为Mate X7将会首发定制20GB超大内存,这是华为史上内存最大的折叠屏旗舰。 在AI时代,AI手机需要充足的运行内存,运行内存可以随时读写,其响应速度比硬盘等长期存储介质快得多。因此,若想实现手机快速调用AI功能的效果,最高效的方法是让AI模型一直在运行内存中加载,即时刻准备着”。 这次华为Mate X7配备了20GB超大内存,比安卓阵营普遍采用的1

  • 华为Mate X7开启预订:全系配色、存储方案公布

    华为新一代折叠屏旗舰Mate X7今日开启预订,11月25日正式发布。提供曜石黑、云锦蓝等五款配色,存储含标准版(12GB+256GB/512GB)与典藏版(16GB+512GB/1TB)。影像系统搭载第二代红枫技术,配备5000万像素三摄模组。核心采用麒麟9030系列芯片,典藏版升级至9030 Pro。全新折叠架构支持IP58/59防护,实现抗跌落、抗冲击等全面升级,重新定义折叠旗舰标准。

  • 华为Mate 80系列、Mate X7定档11月25日发布

    华为将于11月25日14:30举行新品发布会,推出Mate80系列和Mate X7折叠旗舰。Mate80系列包括四款机型,搭载全新麒麟9030处理器和鸿蒙OS6系统,性能与流畅度显著提升,并提供多样配色。Mate X7配备7.95英寸2K内屏,采用UTG超薄柔性玻璃,搭载麒麟9030处理器,电池容量更大,影像能力升级,拥有五款时尚配色。新品引发科技圈和消费者高度期待。

  • 华为Mate X7外观公布 搭载全新折叠玄武架构

    华为Mate X7折叠屏手机正式亮相,搭载全新超可靠折叠玄武架构,通过80℃热水喷淋、铁球冲击及弯折测试等极限可靠性检测,抗跌落、抗冲击及抗热水性能全面升级。支持IP58/IP59级别防尘抗水,典藏版外屏采用第二代玄武钢化昆仑玻璃,抗摔性能更出色。延续后置四摄与闪光灯布局,影像系统升级至5000万像素可变光圈主摄和潜望长焦镜头,硬件配置麒麟9030芯片,提供12GB/16GB/20GB多种内存版本,满足不同使用需求。

今日大家都在搜的词: