MosaicML推开源大语言模型MPT-7B-8K 上下文长度达8k

2023-07-20 15:33 · 稿源：站长之家

站长之家（ChinaZ.com）7月20日消息:MosaicML 发布了名为 MPT-7B-8K 的7B 参数开源语言模型（LLM），支持8K 的上下文长度。与以前的模型相比，MPT-7B-8K LLM 在摘要和回答任务方面展现出卓越的能力。

据该公司称，该模型在 MosaicML 平台上进行训练，并从 MPT-7B 检查点开始进行预训练过程。预训练阶段使用Nvidia H100进行，另外在256个 H100上进行了三天的训练，包含了令人印象深刻的5000亿个token数据。

MosaicML 发布的 MPT-30B 在人工智能社区引起了轰动，MPT-30B 是一种开源且商业许可的基于解码器的 LLM。该公司声称其比GPT-3-175B更强大，参数只有GPT-3的17%，相当于300亿。

MPT-30B 在各种任务中的性能都超过了 GPT-3，并且证明比类似大小的模型训练效率更高。例如，LLaMA-30B 所需的 FLOPs 预算比 MPT-30B 大约高1.44倍，而 Falcon-40B 的 FLOPs 预算比 MPT-30B 高1.27倍。

MosaicML 声称，与之前发布的所有型号相比，新型号 MPT-7B-8K 在文档摘要和问答任务方面表现出卓越的熟练程度。该模型专门针对加速训练和推理进行了优化，以获得更快的结果。此外，它还允许在 MosaicML 平台内微调特定领域的数据。

该公司还宣布提供 MPT-7B-8k 的商用版本，强调其在包含1.5万亿token的广泛数据集上的出色训练，超越了 XGen、LLaMA、Pythia、OpenLLaMA 和 StableLM 等类似模型。

MosaicML 声称，通过使用 FlashAttention 和 FasterTransformer，该模型在快速训练和推理方面表现出色，同时受益于llm-foundry 存储库提供的开源训练代码。

该公司发布了三种版本的模型:

MPT-7B-8k-Base: 这种解码器式 Transformer 基于 MPT-7B 进行预训练，并进一步优化，扩展序列长度为8k。它接受了5000亿个令牌的额外训练，产生了包含文本和代码的1.5万亿个token的大量语料库。
MPT-7B-8k-Instruct: 该模型专为长格式教学任务而设计，包括总结和问答。它是通过使用精心策划的数据集对 MPT-7B-8k 进行微调而制作的。
MPT-7B-8k-Chat: 此变体充当类似聊天机器人的模型，专注于对话生成。它是通过使用约15亿个聊天数据token对 MPT-7B-8k 进行微调而创建的。

Mosaic 声称，MPT-7B-8k 模型表现出与当前其他具有8k 上下文长度的开源模型相当或更好的性能，该公司的上下文学习评估工具证实了这一点。

官方博客:https://www.mosaicml.com/blog/long-context-mpt-7b-8k

（举报）

相关推荐

关键词：

破解海外旅游语言困境，时空壶新T1以端侧模型开启全球畅行

国庆假期临近，海外旅游热度攀升，语言沟通成为游客面临的主要障碍。网络不稳定更使依赖在线翻译工具的旅行者陷入困境。时空壶新T1翻译机通过端侧AI模型，实现无网或弱网环境下的流畅翻译，支持31种语言互译，覆盖全球98%主流旅游地。其离线翻译准确率达90%，响应迅速，并具备拍照翻译和降噪功能，有效解决机场、餐厅等嘈杂场所的沟通难题。新T1助力游客跨越语言壁垒，尽享无忧旅程，真正实现“无网也能畅行全球”。

海外旅游语言沟通翻译机
从品牌咨询到语言培训：小鹅通如何助力花花语言艺术实现培训产品数字化落地

文章介绍小鹅通平台助力语言培训品牌“花花语言艺术”实现数字化转型的案例。创始人任瑞丽从品牌咨询转型，创立“母语应用式”培训体系，通过小鹅通完成产品数字化、私域运营等全链路升级，服务超1万用户。该案例体现了小鹅通以工具赋能为核心理念，帮助培训从业者实现业务可持续增长，未来将继续深化合作，完善表达训练体系并拓展文化传播领域。

语言培训母语应用式表达小鹅通
荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0，在多项基准测试中表现优异；阿里通义7款模型登顶Hugging Face榜单，Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限，可自动完成视觉任务；特斯拉推进人形机器人量产，马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密，苹果内部测试聊天机器人Veritas优化Siri，YouTube推出AI音乐主播增强互动，LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

AI 开源模型高性能思考模型
真我GT8 Pro不改名！真我CMO：用产品力说话而不是用改名发声

真我GT8系列将于10月发布，包括GT8和GT8 Pro两款旗舰机型。新机搭载高通骁龙8至尊版芯片，采用台积电3nm工艺，配备2K直屏、2亿像素潜望长焦、大师级对称双扬声器等顶级配置。真我高管强调产品力优先，拒绝跟风改名，以Pro之名诠释Ultra级产品实力。

真我GT8系列 2K直屏 2亿像素潜望长焦
荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

快手发布KAT系列代码大模型，腾讯推出“混元图像3.0”实现多模态突破，苹果研发类ChatGPT应用升级Siri，谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型，YouTube Music测试AI音乐主播功能，VideoFrom3D框架简化3D视频生成，Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型，展现强大性能。

AI日报快手KAT系列大模型
iOS 26.1首个Beta版更新发布苹果AI支持更多语言

苹果发布iOS 26.1开发者预览版Beta更新，内部版本号23B5044l。主要更新包括：Apple Intelligence新增丹麦语、荷兰语、挪威语、葡萄牙语、瑞典语、土耳其语、繁体中文及越南语支持；AirPods实时翻译功能扩展至日语、韩语、意大利语和中文（含繁简）；电话应用数字键盘采用全新液态玻璃设计。此外，Apple Music支持滑动切换歌曲，照片、日历和Safari浏览器迎来视觉优化。iOS 26正式版已于9月16日推送，适配第二代iPhone SE及之后共25款机型，iPhone 17系列和iPhone Air出厂预装该系统。

iOS 26.1 Apple
从边陲到前沿：麒麟软件推动新疆数字化与民族语言信息化

1955年10月1日新疆维吾尔自治区成立，开启发展新篇章。70年来，新疆各族人民生活水平显著提升，社会事业全面进步，生态环境持续改善。麒麟软件作为国产操作系统核心力量，深度参与新疆数字化建设，覆盖党政、金融、交通、通信、教育等领域，支撑超70家厅局单位及14个地州市用户。其银河麒麟操作系统在维哈柯文等多民族语言版本持续升级，集成智能输入与AI助手，优化本地化体验，助力民族地区信息化发展。未来，麒麟软件将持续以技术创新服务新疆现代化建设，推动区域高质量发展。

新疆维吾尔自治区数字化建设一带一路
易鑫发布Agentic大模型，破解汽车金融风控与效率痛点

9月12日，易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”，成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出，易鑫以AI为核心驱动力，通过自研大模型“智鑫多维”等技术，显著提升风控水平与融资通过率，推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构，服务覆盖牧民、基层员工等多元群体，体现技术普惠价值。未来将持续加大科技创新投入，深化国内普惠金融服务，并探索技术出海，助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可，更反映出行业正加速拥抱智能化变革。

AI应用汽车金融金融科技
荐AI日报：阿里云开源通义DeepResearch；夸克推医师考试大模型

本期AI日报聚焦多项前沿动态：阿里云开源轻量级AI代理DeepResearch，性能媲美OpenAI；夸克推出国内首个全阶段医师考试大模型测试集；微软Copilot将上线类ChatGPT记忆管理功能；迪士尼等巨头起诉MiniMax侵犯版权；OpenAI提升ChatGPT搜索准确性；Notion推出个性化AI助手；谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5；Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

AI 开源轻量级
行业迈向标准化！销售易Engage2025大会首发AI CRM评价模型

2025年9月9日，腾讯旗下销售易在京举办第七届用户大会Engage2025。大会以“数驱增长智赢未来”为主题，汇聚800余位来自世界500强、中国优秀出海企业、在华外资机构及各行业领军企业的高管与业务先锋，共议AI+CRM创新与企业数智化增长的前沿实践。腾讯集团副总裁、政企业务总裁、销售易董事长李强在开幕致辞中强调，CRM系统作为企业核心基础设施，是连接客户与战略的重要桥梁，更是推动持续增长的新引擎。会上，销售易携手中国信息通信研究院发布行业首个《面向企业用户的AI+CRM建设的评价模型课题共研成果》，填补了CRM智能化领域建设指导体系的空白，标志着国内CRM行业步入规范化发展的新阶段。

今日大家都在搜的词：

热文

3 天
7天

MosaicML推开源大语言模型MPT-7B-8K 上下文长度达8k

破解海外旅游语言困境，时空壶新T1以端侧模型开启全球畅行

从品牌咨询到语言培训：小鹅通如何助力花花语言艺术实现培训产品数字化落地

荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

真我GT8 Pro不改名！真我CMO：用产品力说话而不是用改名发声

荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

iOS 26.1首个Beta版更新发布苹果AI支持更多语言

从边陲到前沿：麒麟软件推动新疆数字化与民族语言信息化

易鑫发布Agentic大模型，破解汽车金融风控与效率痛点

荐AI日报：阿里云开源通义DeepResearch；夸克推医师考试大模型

行业迈向标准化！销售易Engage2025大会首发AI CRM评价模型

今日大家都在搜的词：

热文

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

小米17系列开售5分钟破25年国产手机首销纪录

小米17/Pro/Pro Max今日首销：4499元起

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

5299元！小米17标准版新增16GB+1TB版本：10月5日发售

雷军：小米17 Pro Max很多门店已经缺货

iPhone调休闹钟上热搜苹果客服回应：需手动设置

雷军晒第100次健身打卡提前3个月完成健身目标

京东双11购物节官宣：10月9日晚8点开启

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

华为WATCH GT 6/Pro系列手表发布售价1488元起

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推

理想i6正式上市：首销直减1万限时售价23.98万元

AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问

小米17系列开售5分钟破25年国产手机首销纪录

雷军大方推荐友商产品：不买YU7 可以考虑Model Y和理想i6

雷军称没什么好犹豫的：50岁正是闯的年纪

站长商机