首页 > 业界 > 关键词  > GPT-4最新资讯  > 正文

比GPT-4还强,20亿参数模型做算术题,准确率几乎

2023-09-19 08:46 · 稿源: ​机器之心公众号

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:陈萍、小舟,授权站长之家转载发布。

当前,大型语言模型 (LLM) 在处理 NLP 领域的各种下游任务方面已经表现出卓越的能力。特别是,GPT-4、ChatGPT 等开创性模型已经接受了大量文本数据的训练,使它们具备强大的文本理解和生成能力,能够生成连贯且上下文相关的响应,在各种 NLP 任务中具有高度通用性。

然而,LLM 在数学推理方面的性能却不尽如人意。LLM 很难准确地执行复杂的算术运算,尤其是涉及超过8位数字乘法的运算,还有涉及小数、分数的运算。

基于此,来自清华大学、TAL AI Lab 和智谱 AI 的研究者联合提出了一个能够完美执行复杂算术运算的新模型 ——MathGLM。

图片

  • 论文地址:https://arxiv.org/pdf/2309.03241v2.pdf

  • 项目地址:https://github.com/THUDM/MathGLM#arithmetic-tasks

该研究表明:在足够的训练数据下,20亿参数的语言模型能够准确地进行多位算术运算,准确率几乎达到了100%,且不会出现数据泄露(data leakage)。这个结果大幅超越了 GPT-4(其多位乘法运算准确率仅为4.3%)。

方法介绍

本文提出了一个名为 MathGLM 的模型来探讨 LLM 在数学推理方面的效率。

MathGLM 模型需要完成的算术任务大致可以分为两类:基本算术运算和复杂混合运算。其中基本算术运算包含基本的数学任务,这些任务围绕两个数字的简单计算。而复杂混合运算涉及不同算术运算和数字格式(例如整数、小数、分数等)的组合。表1为 MathGLM 任务分类。

图片

为了增强 MathGLM 的算术能力,本文采用了基于 Transformer 的仅解码器架构,并使用自回归目标(autoregressive objective)在生成的算术数据集上从头开始训练它。

算术任务的学习

算术训练数据集是精心设计的,包括加法、减法、乘法、除法和求幂等多种运算。此外,它还包含多种数字格式,例如整数、小数、百分比、分数和负数。数据集规模大小不一,范围从100万到5000万条记录不等。

在每个数据集中,单个算术表达式由2到10个运算步骤组成,涵盖一系列数学运算,例如加法 (+)、减法 (-)、乘法 (×)、除法 (/) 和求幂 (^)。图3为从算术数据集中提取的一些训练示例:

图片

表2概述了 MathGLM 模型的不同规模,包括4种不同类型的模型,每种模型都有不同的参数大小。最大的模型参数量为2B,容量最强;其余参数量分别为500M 、100M 以及最小的10M 参数模型。

图片

对数学应用问题的学习

除了算术任务外,本文还训练(微调)了一系列基于 Transformer 的语言模型,称为通用语言模型 (GLM,General Language Model)及其聊天版本来解决数学应用问题。训练过程使用了公开的 Chinese Ape210K 数据集,该数据集包含21万道中文小学数学题,每个题的答案都是直接计算得出的。

为了提高 MathGLM 在数学应用题上的性能,本文采用分步策略来重建 Ape210K 数据集,并将其转换为逐步计算每个数学问题答案的版本。图4展示了原始 Ape210K 数据集和本文重建版本之间的对比。

图片

本文采用 GLM 的不同变体作为骨干来训练 MathGLM,包括具有335M 参数的 GLM-large、GLM-6B、GLM2-6B 和 GLM-10B。此外,本文还使用 ChatGLM-6B 和 ChatGLM2-6B 主干网络训练 MathGLM。这些骨干模型赋予 MathGLM 基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。

实验

本文设计了两种不同类型的实验,包括算术任务和数学应用题。

对于算术任务,本文预训练了一个基于 Transformer 的 MathGLM 模型,该模型具有500M 参数,并将其与领先的大型语言模型 (LLM)(例如 GPT-4和 ChatGPT)的性能进行了比较。结果如表3所示, MathGLM 优于所有其他模型,表明 MathGLM 在处理算术任务方面具有卓越的性能。

即使只有1000万个参数的 MathGLM-10M,结果也令人惊讶。MathGLM-10M 在一系列综合算术任务中的性能优于 GPT-4和 ChatGPT。

图片

此外,当比较不同参数规模的 MathGLM 时,本文观察到 MathGLM 的算术性能与其参数数量的增加直接相关。这一发现表明,随着模型尺寸的增加,它们的性能表现出相应的增强。

综上所述,研究者对复杂算术任务的评估结果表明 MathGLM 具有卓越的性能。通过分解算术任务,这些模型的性能显著超过了 GPT-4和 ChatGPT。

此外,本文还对 GPT-4、ChatGPT、text-davinci-003、code-davinci-002、Galacica、LLaMA、OPT、BLOOM 和 GLM 进行了比较。本文从前面讨论的大数据集中随机抽取了一个包含100个测试用例的紧凑算术数据集。结果如表4所示。

通过以上分析结果可以看出,MathGLM 在20亿参数下达到了93.03% 的准确率,超越了所有其他 LLM。

图片

对于数学应用问题,本文在 Ape210K 数据集上进行了实验。表8报告了包括 MathGLM 变体、 GPT-4、ChatGPT 等在内的结果。

结果表明,当与 GLM-10B 配合使用时,MathGLM 在答案准确性方面达到了与最先进的 GPT-4模型相当的性能水平。

此外,将 MathGLM 的性能与 GLM-Large、GLM-6B 和 GLM-10B 进行比较时,出现了一个明显的趋势:MathGLM 在算术准确性和答案准确性方面都表现出显著增强。

图片

为了评估模型在不同年级数学问题上的解决能力,该研究在 K6数据集上测试评估了几种模型的性能,包括:GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B、ChatGLM-6B、ChatGLM2-6B 和 MathGLM-GLM-10B,结果如下图8所示。

图片

举报

  • 相关推荐
  • 大家在看
  • 天玑9200+首发机型有哪些?

    iQOO Neo8 系列天玑9200+首发机型会是iQOO Neo8系列,大概率会是iQOO Neo8 Pro。天玑 9200+ 的 CPU 和 GPU 成绩都超过了高通骁龙 8 Gen 2 旗舰处理器,相比上一代天玑 9200 的 GPU 性能大幅提升。除了将搭载天玑 9200 + 处理器以外,iQOO Neo8 Pro 还将配备一块 1.5K 显示屏,采用 1/1.5 英寸 5000 万像素主摄,并配备了 16GB LPDDR5X + 512GB UFS 4.0。

  • 天玑9200+和天玑9000有什么区别?

    核心频率不同,CPU型号不同天玑9200+和天玑 9000 都是联发科的5G旗舰级芯片,天玑9200+和天玑9000都是采用台积电4nm工艺制程。天玑9200+的CPU最高主频为3.3GHz,而天玑 9000 的CPU最高主频为3.2GHz。两款芯片都支持双模5G、WiFi 6E和蓝牙5. 2 等技术。

  • 天玑9200+参数性能怎么样?

    台积电 4 纳米工艺1+3+ 4 核心结构设计,安兔兔跑分超过了 136 万分天玑9200+处理器,台积电 4 纳米工艺1+3+ 4 核心结构设计,包括 1 颗X3 超大核、 3 颗A715 大核和 4 颗A510 小核,全部支持 64 位应用,安兔兔跑分超过了 136 万分。首款搭载天玑9200+处理器的手机为iQOO Neo8 和iQOO Neo8 Pro,核心配置:天玑9200++LPDDR5X+UFS3.1,Pro机型采用UFS4.0。

  • 天玑9200+相当于骁龙哪个处理器?

    天玑9200+主频是3.0GHz,与骁龙 8Gen 2 相同,跑分要比骁龙 8Gen 2高一点点天玑 9200+ 处理器与天玑 9200 同架构,但所有核心频率增加,主频来到了 3.0GHz,与骁龙 8Gen 2 相同。跑分数据,天玑 9200+ 在 Geekbench v6 平台单核得分 2121 分,多核得分 5655 分。作为对比,骁龙 8Gen 2 的单核跑分成绩在大约 2000,多核成绩大约 5400。天玑9200+的安兔兔跑分大约为 136 万分,骁龙8Gen2 安兔兔跑分大约是128万分。

  • 天玑9200+跑分多少?

    在 Geekbench v6 平台单核得分 2121 分,多核得分 5655 分联发科已经正式官宣,天玑9200+将于 5 月 10 日发布,这款处理器的 Geekbench v6 跑分已经出现。天玑 9200+ 处理器与天玑 9200 同架构,但所有核心频率增加,主频来到了 3.0GHz,与骁龙 8Gen 2 相同。 根据爆料的跑分数据,天玑9200+在 Geekbench v6 平台单核得分 2121 分,多核得分 5655 分。 作为对比,骁龙 8Gen 2 的单核跑分成绩在大约 2000,多核成绩大约 5400。

  • 小米手环 8续航怎么样?

    7天以上小米手环 8 搭载蓝牙 5.1,内置直流 3.87V 聚合物锂离子电池,型号为 M2239B1。上一代的小米手环 7 续航大约有9-15天左右。 小米手环 7 内置180mAh 电池。预计小米手环8的续航会比小米手环7续航略微提升一点。

  • 魅族 20 Pro屏幕参数怎么样?

    2K+ 分辨率魅族 20 Pro 采用6.81英寸直屏,2K+ 分辨率、100% P3 广色域、120Hz LTPO 高刷、最高 1200 nit 全屏亮度、最低 2 nit 全屏亮度,同时支持防蓝光、DC 调光等功能一应俱全;魅族 20 Pro采用旗舰级性能配置,包括顶级处理器第二代骁龙 8、12GB 起步的 LPPDR5X 大内存、至高 512GB UFS4.0 极速闪存以及 36424 平方毫米的立体散热堆叠。

  • 魅族 20 Pro参数配置怎么样?

    第二代骁龙 8,LPPDR5X+UFS4.0,2K三星E6 材质Super AMOLED屏幕魅族 20 Pro,内置第二代骁龙 8,LPPDR5X+UFS4.0,搭载了2K三星E6 材质Super AMOLED屏幕,屏幕尺寸6. 81 英寸,支持120Hz自适应屏幕刷新率和1500Hz瞬时触控采样率,峰值亮度可达1800nit,屏幕还通过了SGS抗蓝光、抗频闪护眼认证;破晓灰、曙光银、朝阳金三种配色,整机厚7. 8 毫米,重 209 克;镜头模组由 5000 万像素人像镜头、 5000 万像素广角镜头、 5000 万像素超广角镜头组成,支持全像素对焦技术搭配dTOF辅助对焦,官方称将使对焦速度提升33%。魅族20 系列的主摄均支持SMA防抖,最高8K视频录制和夜景录像功能;5000mAh电池配80W快充,支持50W无线快充和无线反充功能;价格方面,12GB+128GB、12GB+256GB、12GB+512GB三种存储组合,售价 3999 起。

  • 魅族 20参数配置怎么样?

    6. 55 英寸144Hz高刷屏,高通骁龙8 Gen2魅族 20标准版采用6. 55 英寸144Hz高刷屏,处理器是高通骁龙8 Gen2,LPDDR5X + UFS 4.0,内置4700mAh电池 + 67W快充,直角金属中框,机身重190g、厚7.9mm,支持超声波指纹、双扬声器、玻璃后盖、红外遥控、X轴线性马达,前置摄像头是3200 万镜头,后置 5000 万主摄 +1600 万超广角 +500 万景深三摄,提供先锋灰、定胜青、热爱粉、悦动黄四个颜色,售价方面,12GB+128GB售价 2999 元,12GB+256GB售价 3399 元,12GB+512GB售价 3799 元。

  • Redmi Note12 Turbo是什么处理器?

    第二代骁龙7+处理器Redmi Note12 Turbo搭载的是高通第二代骁龙7+处理器,采用台积电4nm工艺,CPU采用1+3+ 4 架构设计,核心参数为1x2.91Ghz@X2 超大核、3x2.5GHz@A710 大核、4x1.8GHz@A510 小核,整体CPU性能提升约50%,Adreno GPU性能提升 2 倍,AI引擎性能提升 2 倍。第二代骁龙7+处理器安兔兔得分为 963968 分;Geekbench5 单核得分 1209 分,多核得分 3868 分;3D Mark Wild Life 得分为 7474 分。实际运行游戏方面,以《原神》为例,在极致画质 60 帧模式下运行一小时,基本接近满帧运行,平均帧率能够高达 58.8 帧。

  • Redmi Note12 Turbo屏幕参数怎么样?

    6. 67 英寸OLED柔性直屏,分辨率2400 x 1080Redmi Note12 Turbo屏幕基本参数是:超细四窄边 OLED 柔性直屏 尺寸:6. 67 英寸 分辨率:2400 x 1080 全局激发亮度:1000nit* 对比度:5,000,000:1 调光级数: 16000 级 显示帧率:30 / 60 / 90 / 120Hz 触控采样率:全局 240Hz,支持1920Hz 高频 PWM 调光 | 12bit 色深 | DCI-P3 色域 | 阳光屏 | 护眼模式 | SGS低蓝光认证 | HDR10+ | Dolby Vision | Adaptive HDR | 优酷帧享。

  • Redmi Note12 Turbo参数配置怎么样?

    第二代骁龙7+处理器,屏幕6.67英寸Redmi Note12Turbo,搭载第二代骁龙7+处理器,屏幕6.67英寸、分辨率2400×1080、支持120Hz高刷+1920Hz高频PWM调光、内置5000mAh电池+67W有线快充,厚7.9mm,重量181g,后置三摄分别是6400万 像素超清主摄+800万 像素超广角镜头+200万 像素微距镜头,前置1600万 像素高清人像相机!定价上,8GB+256GB入门版1999元,顶配16GB+1TB定价2799,首发到手2599元。

  • 华为Mate X3配置是什么样的?

    后置三摄,主摄 5000万像素,屏幕分辨率2496*2224华为Mate X3有「羽砂玻璃版:羽砂白、羽砂黑、羽砂紫」、「素皮版:晨曦金、青山黛」五款配色可选;覆盖昆仑玻璃;超轻薄折叠四曲设计,机身重量仅239g,厚度仅5.3mm, IPX8级抗水。屏幕拥有2496*2224超高分辨率和426ppi 超高像素密度。同样支持最高120Hz 自适应刷新率以及1440Hz PWM 调光。影像方面:搭载5000万像素超感知主摄,1300万像素超广角镜头,1200万像素潜望式长焦镜头。并配备10通道多谱传感器和激光对焦传感器,支持100倍变焦和5倍光学变焦。续航方面:配备4800mAh 大电池,支持50W 无线快充、66W 有线快充以及7.5W 无线反向快充。性能方面:与华为 P60系列一样搭载了骁龙8+ 处理器,配备了超冷跨轴石墨烯散热系统,导热面积提升了20%。价格:华为Mate X3:256GB:12999、512GB:13999;华为 Mate X3典藏版:1TB:15999

  • 华为P60 Pro参数怎么样?

    6. 67 英寸的OLED屏幕, 4800 万像素长焦镜头华为P60 系列在背部采用了矩阵型模组,官方称之为“凝光设计”,引入了“凝光贝母”工艺;华为P60 全系搭载了6. 67 英寸的OLED屏幕,拥有2700* 1220 刷新率,显示效果十分细腻,支持10. 7 亿色、1440Hz PWM调光。 同时支持全局色彩管理,支持莱茵专业色准双重认证;屏幕还支持LTPO动态高刷新率,支持1~120Hz自适应刷新率,还配备了昆仑玻璃面板,IP68 防尘抗水;相机方面,华为P60 Pro则进一步升级长焦镜头,配备了 4800 万像素RYYB的超聚光夜视长焦镜头,支持3. 5 倍光学变焦、OIS,拥有F2. 1 超大光圈;支持双向北斗卫星通信;5100 毫安时大电池+88W快充;首发搭载了全新的鸿蒙3.1,新增了AOD息屏显示功能。

  • 华为P60配置参数怎样?

    6.67英寸的OLED屏幕,支持1~120Hz的LTPO刷新率华为P60 系列的屏幕搭载了骁龙8+ 4G处理器,6. 67 英寸的OLED屏幕,支持1~120Hz的LTPO刷新率,支持1440Hz PWM调光,拥有10. 7 亿色、全局P3 色域、HDR-P3|HDR Vivid显示效果;覆盖四曲昆仑玻璃,支持IP68 防水,是全球首款德国莱茵专业色准双重认证的手机;相机方面,华为P60 支持F1.4-4. 0 十档可变光圈,搭载大光圈高透光镜群和RYYB超感光传感器,支持了华为XD Fusion Pro质感引擎;支持双向北斗卫星消息;首发搭载鸿蒙3.1,支持AOD息屏显示;价格,华为P60 的128GB版 4488 元,256GB版本是 4988 元,512GB版本是 5988 元。

  • OPPO Pad2是什么处理器?

    天玑9000处理器OPPO Pad2内置了天玑9000处理器,天玑9000CPU采用先进的1+3+ 4 三丛集旗舰架构1×Arm Cortex-X2 超大核 @3.05GHz,迸发惊人峰值性能,满足旗舰手机对高性能的需要;3×Arm Cortex-A710 大核 @2.85GHz,使重载应用和多任务的处理更加高效;4×Arm Cortex-A510 能效核心 @1.8GHz,以低功耗处理轻量级任务。安兔兔平台上,天玑9000的跑分是107万分,在Geekbench 5 中,搭载了天玑 9000的 Vivo X80 Pro 得分 1248 和 4191(单核和多核)。

  • OPPO Pad2参数配置怎么样?

    天玑9000芯片,LPDDR5+UFS3.1,11.61英寸LCD屏幕,支持144Hz刷新率OPPO Pad2主要配置包括:11.61英寸7:5比例LCD显示屏,拥有2800×2200分辨率和500尼特亮度,支持144Hz五档刷新率智能调节,2048级亮度自适应智能调光并支持手写笔。OPPO Pad2基于联发科技天玑9000,辅以LPDDR5内存和UFS3.1存储,内置9510毫安时电池、67W有线快充、杜比四扬声器、1300万像素后置摄像头、800万像素前置摄像头和蓝牙5.3。软件方面,ColorOS13.1支持5G通信共享。可以自动共享手机的5G通信,从而直接上网、接打电话、同步手机验证码、拍照流转和应用接力。

  • 骁龙7+ Gen2支持哪些网络技术?

    5G双待双通(DSDS)、WiFi 6/6E、蓝牙5.3等骁龙7+ Gen2 采用了骁龙X62 5G调制解调器,在全球范围内支持多种频段和模式的5G网络连接。它还是首款在骁龙 7 系中实现了5G双待双通(DSDS)功能,在两张SIM卡都插入时可以同时使用两个不同运营商或不同网络制式(例如SA和NSA)的5G网络服务。除此之外,它还支持WiFi 6/6E和蓝牙5. 3 等无线技术。

今日大家都在搜的词:

热文

  • 3 天
  • 7天