首页 > 业界 > 关键词  > MosaicML最新资讯  > 正文

MosaicML推开源大语言模型MPT-7B-8K 上下文长度达8k

2023-07-20 15:33 · 稿源:站长之家

站长之家(ChinaZ.com)7月20日 消息:MosaicML 发布了名为 MPT-7B-8K 的7B 参数开源语言模型(LLM),支持8K 的上下文长度。与以前的模型相比,MPT-7B-8K LLM 在摘要和回答任务方面展现出卓越的能力。

image.png

据该公司称,该模型在 MosaicML 平台上进行训练,并从 MPT-7B 检查点开始进行预训练过程。预训练阶段使用Nvidia H100进行,另外在256个 H100上进行了三天的训练,包含了令人印象深刻的5000亿个token数据。

image.png

MosaicML 发布的 MPT-30B 在人工智能社区引起了轰动,MPT-30B 是一种开源且商业许可的基于解码器的 LLM。该公司声称其比GPT-3-175B更强大,参数只有GPT-3的17%,相当于300亿。

MPT-30B 在各种任务中的性能都超过了 GPT-3,并且证明比类似大小的模型训练效率更高。例如,LLaMA-30B 所需的 FLOPs 预算比 MPT-30B 大约高1.44倍,而 Falcon-40B 的 FLOPs 预算比 MPT-30B 高1.27倍。

MosaicML 声称,与之前发布的所有型号相比,新型号 MPT-7B-8K 在文档摘要和问答任务方面表现出卓越的熟练程度。该模型专门针对加速训练和推理进行了优化,以获得更快的结果。此外,它还允许在 MosaicML 平台内微调特定领域的数据。

该公司还宣布提供 MPT-7B-8k 的商用版本,强调其在包含1.5万亿token的广泛数据集上的出色训练,超越了 XGen、LLaMA、Pythia、OpenLLaMA 和 StableLM 等类似模型。

MosaicML 声称,通过使用 FlashAttention 和 FasterTransformer,该模型在快速训练和推理方面表现出色,同时受益于llm-foundry 存储库提供的开源训练代码 。

该公司发布了三种版本的模型:

  • MPT-7B-8k-Base: 这种解码器式 Transformer 基于 MPT-7B 进行预训练,并进一步优化,扩展序列长度为8k。它接受了5000亿个令牌的额外训练,产生了包含文本和代码的1.5万亿个token的大量语料库。

  • MPT-7B-8k-Instruct: 该模型专为长格式教学任务而设计,包括总结和问答。它是通过使用精心策划的数据集对 MPT-7B-8k 进行微调而制作的。

  • MPT-7B-8k-Chat: 此变体充当类似聊天机器人的模型,专注于对话生成。它是通过使用约15亿个聊天数据token对 MPT-7B-8k 进行微调而创建的。

Mosaic 声称,MPT-7B-8k 模型表现出与当前其他具有8k 上下文长度的开源模型相当或更好的性能,该公司的上下文学习评估工具证实了这 一点。

官方博客:https://www.mosaicml.com/blog/long-context-mpt-7b-8k

举报

  • 相关推荐
  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 智慧养老预告| 让养老更有AI!作为科技邀您共赴WAIC 2025世界人工智能大会

    2025世界人工智能大会(WAIC2025)将于7月26-28日在上海举办,主题为"智能时代 同球共济"。本届大会展览面积首次突破7万平方米,吸引800余家企业参展,展示3000余项前沿展品,涵盖40余款大模型、50余款AI终端、60余款智能机器人及80余款"全球首发"新品。12位诺贝尔奖与图灵奖得主、80余位中外院士、30余国1200位重磅嘉宾将齐聚申城,围绕大模型革命、算力新基建等十大方向展开对话。大会首次将"AI+医疗"列为核心议题,中国主导制定的全球养老机器人国际标准将在会上发布。面对中国3亿老年人口(其中失能半失能老人超4500万)的养老需求痛点,大会将探讨AI赋能智慧养老解决方案,推动"全域数据贯通→精准需求洞察→资源动态调度"闭环,重塑养老产业生态。

  • 男子长出4cm“生姜”大结石 常以冰镇饮料和浓茶解渴

    ​近日,湖南长沙南湖医院接诊一例特殊肾结石患者,53岁的胡先生因长期在三伏天高温环境下工作,且以冰饮料、浓茶替代饮水,导致右肾形成4厘米生姜状巨型结石。该病例经手术治疗后康复出院,为户外作业人群敲响健康警钟。 据胡先生自述,其从事户外工作多年,入夏后常以冰镇饮料和浓茶解渴。三个月前开始出现腰腹部胀痛,起初通过大量饮水可缓解,但近期疼痛加

  • 苹果自研AI模型难产:改用第三方大语言模型

    苹果可能会跟OpenAI或Anthropic合作,双方正在谈判讨论一项潜在交易,苹果希望调用OpenAI或Anthropic的第三方大语言模型来为Siri提供技术支持。 据悉,OpenAI或Anthropic正在训练适配苹果私有云计算服务器的模型,苹果也在进行测试,目前苹果发现Anthropic的AI模型最适合Siri,且与Anthropic初步讨论了一些财务条款,消息称Anthropic要求苹果每年支付数十亿美元的费用,且该费用会随时间�

  • 男子为通便将15cm火腿肠塞入下体 医生:不可、应以预防为主

    很多网友看完新闻后表示,再也无法直视火腿肠了! 媒体报道,近日,陕西一58岁男子因为不爱吃蔬果,便秘了十几天,出现腹胀、腹痛。 为了缓解不适,男子便突发奇想,便使用火腿肠通便,没想到这根长达15厘米的火腿肠滑入肛门直肠内,无法自行取出来。

  • 女子洗车9天方向盘长出3cm霉菌 网友:不忍直视

    ​日前,重庆的何女士遭遇了一件糟心事。她洗完车后,便将爱车停放在车库,本以为只是寻常的一次停车,没想到 9 天后再次打开车门,眼前的场景让她惊得合不拢嘴。 从现场画面能看到,车内仿佛成了霉菌的“温床”,金黄色的霉菌肆意生长,布满了各个角落,那令人作呕的模样,仿佛隔着屏幕都能让人闻到那股潮湿腐败的刺鼻味道。尤其是方向盘,成了霉菌的“重灾区

  • 最新AI模型哪里看?查找最佳AI模型平台推荐

    文章介绍了AI领域快速迭代背景下,开发者如何高效追踪最新模型动态。主要渠道包括:1)官方渠道(GitHub、公司官网/博客);2)科技媒体和社区(Twitter、Reddit等);3)专业聚合平台(推荐AIbase模型广场)。重点推荐AIbase平台,其优势在于:实时更新全球最新模型、结构化展示关键信息、支持多维筛选排序、直达相关资源链接。建议开发者善用官方渠道获取源头信息,同时�

  • 最新AI模型哪里看?8个国内优质AI模型库与获取渠道盘点

    文章探讨大模型API价格战背景下,开源模型+本地微调成为降本增效的新趋势。当前典型工作流已转变为:GitHub找代码→Hugging Face找权重→国内镜像站下载→本地/云端微调。模型库成为生产链起点而非单纯资源站。建议从三个维度筛选模型:1)协议类型决定商用权限;2)框架兼容性避免格式转换;3)场景标签匹配度节省检索时间。推荐8个国内优质模型获取渠道,包括AIbase(2.3万+模型)、阿里ModelScope(社区活跃)、百度EasyDL(零代码友好)等,各平台在电商、语音、交通等垂直领域各有优势。最后给出快速检索建议:商用需求优先查协议,垂直场景找专业平台,追踪更新可订阅RSS。

  • 国内首个!高德地图正式上线多语言地图:新增14种语言

    日前,高德地图正式上线多语言地图,在原有的中英文基础上,新增多达14种语言。 这14种语言包括西班牙语、葡萄牙语、法语、德语、泰语、日语、韩语、土耳其语、意大利语、俄语、阿拉伯语、马来语、印尼语、越南语。 此次多语言版的推出,使更多非英语国家的用户也能享受高德地图提供的优质出行服务。 高德地图多语言版实现了产品界面与地理信息的多语种适配,�

  • vivo以Rust语言自研的蓝河操作系统内核正式开源

    7月23日,2025开放原子开源生态大会召开。vivo宣布其自主研发的蓝河操作系统(BlueOS)内核正式开源。该系统采用Rust语言编写,具备智慧、流畅、安全三大特性,是行业首个从内核到框架全栈使用Rust的操作系统。蓝河内核内存占用仅13KB,兼容RISC-V、ARM等架构,支持POSIX接口标准,包含系统调度、内存管理等五大核心能力。vivo表示,此次开源将为国产操作系统发展提供新思路,推动行业迈向新高度。未来vivo将持续推进Rust语言在国内的普及,并举办第三届蓝河操作系统创新大赛。