首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

MosaicML和Together推出可商用开源大模型 性能不输LLaMA

2023-05-08 09:50 · 稿源:站长之家

站长之家(ChinaZ.com)5月8日 消息:虽然Meta的LLaMA已经成为开源AI重要力量,但由于其只可用于研究用途,而且申请麻烦而被业界诟病。现在,MosaicML和Together推出可商用开源大模型,性能不输LLaMA。

MosaicML的MPT系列模型支持84k tokens超长输入,并用FlashAttention和FasterTransformer方法针对训练和推理速度做过优化。其中70亿参数版在性能测试中与LLaMA打个平手。

image.png

除了MPT-7B Base基础模型外还有三个变体。MPT-7B-Instruct,用于遵循简短指令。MPT-7B-Chat,用于多轮聊天对话。MPT-7B-StoryWriter-65k+,用于阅读和编写故事,支持65k tokens的超长上下文,用小说数据集微调。

Together的RedPajama系列模型在5TB的同名开源数据上训练而来,除了70亿参数基础模型外,还有一个30亿参数版本,可以在5年前发售的RTX2070游戏显卡上运行。

image.png

据了解,MosaicML由前英特尔AI芯片项目Nervana负责人Naveen Rao创办,致力于降低训练神经网络的成本。RedPajama由苹果前高管Vipul Ved Prakash,斯坦福大模型研究中心主任Percy Liang,苏黎世联邦理工大学助理教授张策等人联合创办。

这些开源大模型的推出,标志着开源大模型生态有了寒武纪大爆发的早期迹象。这将有助于降低人工智能技术的门槛,促进人工智能的发展。也将有助于加强人工智能技术的透明度和可解释性,避免人工智能技术被滥用。

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词:

热文

  • 3 天
  • 7天