首页 > 业界 > 关键词  > 微软最新资讯  > 正文

微软推出全新预训练模型phi-1.5 仅13亿参数常识推理碾压Llama2

2023-09-18 09:46 · 稿源:站长之家

要点:

1、微软研究人员推出了一个仅有13亿参数的LLM模型Phi-1.5。

2、Phi-1.5在常识推理任务上表现优异,优于多个参数量十倍以上的模型。

3、研究表明,模型参数规模不是决定性因素,高质量数据更为重要。

站长之家(ChinaZ.com)9月18日 消息:微软研究人员最近在一篇论文中提出了一个新的语言模型Phi-1.5,该模型的参数量仅有13亿。研究人员主要关注Phi-1.5在常识推理方面的表现,因为这是对语言模型能力的重要考验。

image.png

论文地址:https://arxiv.org/abs/2309.05463

项目地址:https://huggingface.co/microsoft/phi-1_5

结果表明,Phi-1.5在多个常识推理基准测试数据集上都取得了与参数量是其10倍以上的模型相当或更好的结果。例如在WinoGrande、ARC-Easy、ARC-Challenge、BoolQ和SIQA等数据集上的表现,都与Llama2-7B、Falcon-7B和Vicuna-13B相当甚至更好。

这说明模型的参数规模不是决定性因素,采用高质量合成数据进行预训练可能更为关键。研究中,Phi-1.5使用了微软之前提出的Phi-1模型的训练数据,以及新增的“教科书级”合成数据进行训练。

结果表明,Phi-1.5不仅展现出许多大模型所具有的语言理解和推理能力,在控制有害内容生成方面也具有一定优势,这对研究大型语言模型的社会影响意义重大。本研究表明,相比单纯追求模型规模,如何获取高质量训练数据可能更为重要,这为未来语言模型研究提供了新的思路。

举报

  • 相关推荐