站长之家(ChinaZ.com)5月8日 消息:虽然Meta的LLaMA已经成为开源AI重要力量,但由于其只可用于研究用途,而且申请麻烦而被业界诟病。现在,MosaicML和Together推出可商用开源大模型,性能不输LLaMA。
MosaicML的MPT系列模型支持84k tokens超长输入,并用FlashAttention和FasterTransformer方法针对训练和推理速度做过优化。其中70亿参数版在性能测试中与LLaMA打个平手。
除了MPT-7B Base基础模型外还有三个变体。MPT-7B-Instruct,用于遵循简短指令。MPT-7B-Chat,用于多轮聊天对话。MPT-7B-StoryWriter-65k+,用于阅读和编写故事,支持65k tokens的超长上下文,用小说数据集微调。
Together的RedPajama系列模型在5TB的同名开源数据上训练而来,除了70亿参数基础模型外,还有一个30亿参数版本,可以在5年前发售的RTX2070游戏显卡上运行。
据了解,MosaicML由前英特尔AI芯片项目Nervana负责人Naveen Rao创办,致力于降低训练神经网络的成本。RedPajama由苹果前高管Vipul Ved Prakash,斯坦福大模型研究中心主任Percy Liang,苏黎世联邦理工大学助理教授张策等人联合创办。
这些开源大模型的推出,标志着开源大模型生态有了寒武纪大爆发的早期迹象。这将有助于降低人工智能技术的门槛,促进人工智能的发展。也将有助于加强人工智能技术的透明度和可解释性,避免人工智能技术被滥用。
(举报)