首页 > 业界 > 关键词  > MosaicML最新资讯  > 正文

MosaicML推开源大语言模型MPT-7B-8K 上下文长度达8k

2023-07-20 15:33 · 稿源:站长之家

站长之家(ChinaZ.com)7月20日 消息:MosaicML 发布了名为 MPT-7B-8K 的7B 参数开源语言模型(LLM),支持8K 的上下文长度。与以前的模型相比,MPT-7B-8K LLM 在摘要和回答任务方面展现出卓越的能力。

image.png

据该公司称,该模型在 MosaicML 平台上进行训练,并从 MPT-7B 检查点开始进行预训练过程。预训练阶段使用Nvidia H100进行,另外在256个 H100上进行了三天的训练,包含了令人印象深刻的5000亿个token数据。

image.png

MosaicML 发布的 MPT-30B 在人工智能社区引起了轰动,MPT-30B 是一种开源且商业许可的基于解码器的 LLM。该公司声称其比GPT-3-175B更强大,参数只有GPT-3的17%,相当于300亿。

MPT-30B 在各种任务中的性能都超过了 GPT-3,并且证明比类似大小的模型训练效率更高。例如,LLaMA-30B 所需的 FLOPs 预算比 MPT-30B 大约高1.44倍,而 Falcon-40B 的 FLOPs 预算比 MPT-30B 高1.27倍。

MosaicML 声称,与之前发布的所有型号相比,新型号 MPT-7B-8K 在文档摘要和问答任务方面表现出卓越的熟练程度。该模型专门针对加速训练和推理进行了优化,以获得更快的结果。此外,它还允许在 MosaicML 平台内微调特定领域的数据。

该公司还宣布提供 MPT-7B-8k 的商用版本,强调其在包含1.5万亿token的广泛数据集上的出色训练,超越了 XGen、LLaMA、Pythia、OpenLLaMA 和 StableLM 等类似模型。

MosaicML 声称,通过使用 FlashAttention 和 FasterTransformer,该模型在快速训练和推理方面表现出色,同时受益于llm-foundry 存储库提供的开源训练代码 。

该公司发布了三种版本的模型:

  • MPT-7B-8k-Base: 这种解码器式 Transformer 基于 MPT-7B 进行预训练,并进一步优化,扩展序列长度为8k。它接受了5000亿个令牌的额外训练,产生了包含文本和代码的1.5万亿个token的大量语料库。

  • MPT-7B-8k-Instruct: 该模型专为长格式教学任务而设计,包括总结和问答。它是通过使用精心策划的数据集对 MPT-7B-8k 进行微调而制作的。

  • MPT-7B-8k-Chat: 此变体充当类似聊天机器人的模型,专注于对话生成。它是通过使用约15亿个聊天数据token对 MPT-7B-8k 进行微调而创建的。

Mosaic 声称,MPT-7B-8k 模型表现出与当前其他具有8k 上下文长度的开源模型相当或更好的性能,该公司的上下文学习评估工具证实了这 一点。

官方博客:https://www.mosaicml.com/blog/long-context-mpt-7b-8k

举报

  • 相关推荐
  • 破解海外旅游语言困境,时空壶新T1以端侧模型开启全球畅行

    国庆假期临近,海外旅游热度攀升,语言沟通成为游客面临的主要障碍。网络不稳定更使依赖在线翻译工具的旅行者陷入困境。时空壶新T1翻译机通过端侧AI模型,实现无网或弱网环境下的流畅翻译,支持31种语言互译,覆盖全球98%主流旅游地。其离线翻译准确率达90%,响应迅速,并具备拍照翻译和降噪功能,有效解决机场、餐厅等嘈杂场所的沟通难题。新T1助力游客跨越语言壁垒,尽享无忧旅程,真正实现“无网也能畅行全球”。

  • 从品牌咨询到语言培训:小鹅通如何助力花花语言艺术实现培训产品数字化落地

    文章介绍小鹅通平台助力语言培训品牌“花花语言艺术”实现数字化转型的案例。创始人任瑞丽从品牌咨询转型,创立“母语应用式”培训体系,通过小鹅通完成产品数字化、私域运营等全链路升级,服务超1万用户。该案例体现了小鹅通以工具赋能为核心理念,帮助培训从业者实现业务可持续增长,未来将继续深化合作,完善表达训练体系并拓展文化传播领域。

  • AI日报:蚂蚁开源高性能思考模型Ring-flash-2.0;通义7款模型屠榜Hugging Face;Veo3视觉能力升级

    蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0,在多项基准测试中表现优异;阿里通义7款模型登顶Hugging Face榜单,Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限,可自动完成视觉任务;特斯拉推进人形机器人量产,马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密,苹果内部测试聊天机器人Veritas优化Siri,YouTube推出AI音乐主播增强互动,LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

  • 真我GT8 Pro不改名!真我CMO:用产品力说话 而不是用改名发声

    真我GT8系列将于10月发布,包括GT8和GT8 Pro两款旗舰机型。新机搭载高通骁龙8至尊版芯片,采用台积电3nm工艺,配备2K直屏、2亿像素潜望长焦、大师级对称双扬声器等顶级配置。真我高管强调产品力优先,拒绝跟风改名,以Pro之名诠释Ultra级产品实力。

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • iOS 26.1首个Beta版更新发布 苹果AI支持更多语言

    苹果发布iOS 26.1开发者预览版Beta更新,内部版本号23B5044l。主要更新包括:Apple Intelligence新增丹麦语、荷兰语、挪威语、葡萄牙语、瑞典语、土耳其语、繁体中文及越南语支持;AirPods实时翻译功能扩展至日语、韩语、意大利语和中文(含繁简);电话应用数字键盘采用全新液态玻璃设计。此外,Apple Music支持滑动切换歌曲,照片、日历和Safari浏览器迎来视觉优化。iOS 26正式版已于9月16日推送,适配第二代iPhone SE及之后共25款机型,iPhone 17系列和iPhone Air出厂预装该系统。

  • 从边陲到前沿:麒麟软件推动新疆数字化与民族语言信息化

    1955年10月1日新疆维吾尔自治区成立,开启发展新篇章。70年来,新疆各族人民生活水平显著提升,社会事业全面进步,生态环境持续改善。麒麟软件作为国产操作系统核心力量,深度参与新疆数字化建设,覆盖党政、金融、交通、通信、教育等领域,支撑超70家厅局单位及14个地州市用户。其银河麒麟操作系统在维哈柯文等多民族语言版本持续升级,集成智能输入与AI助手,优化本地化体验,助力民族地区信息化发展。未来,麒麟软件将持续以技术创新服务新疆现代化建设,推动区域高质量发展。

  • 易鑫发布Agentic大模型,破解汽车金融风控与效率痛点

    9月12日,易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”,成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出,易鑫以AI为核心驱动力,通过自研大模型“智鑫多维”等技术,显著提升风控水平与融资通过率,推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构,服务覆盖牧民、基层员工等多元群体,体现技术普惠价值。未来将持续加大科技创新投入,深化国内普惠金融服务,并探索技术出海,助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可,更反映出行业正加速拥抱智能化变革。

  • AI日报:阿里云开源通义DeepResearch;夸克推医师考试大模型

    本期AI日报聚焦多项前沿动态:阿里云开源轻量级AI代理DeepResearch,性能媲美OpenAI;夸克推出国内首个全阶段医师考试大模型测试集;微软Copilot将上线类ChatGPT记忆管理功能;迪士尼等巨头起诉MiniMax侵犯版权;OpenAI提升ChatGPT搜索准确性;Notion推出个性化AI助手;谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5;Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

  • 行业迈向标准化!销售易Engage2025大会首发AI CRM评价模型

    2025年9月9日,腾讯旗下销售易在京举办第七届用户大会Engage2025。大会以“数驱增长 智赢未来”为主题,汇聚800余位来自世界500强、中国优秀出海企业、在华外资机构及各行业领军企业的高管与业务先锋,共议AI+CRM创新与企业数智化增长的前沿实践。腾讯集团副总裁、政企业务总裁、销售易董事长李强在开幕致辞中强调,CRM系统作为企业核心基础设施,是连接客户与战略的重要桥梁,更是推动持续增长的新引擎。会上,销售易携手中国信息通信研究院发布行业首个《面向企业用户的AI+CRM建设的评价模型课题共研成果》,填补了CRM智能化领域建设指导体系的空白,标志着国内CRM行业步入规范化发展的新阶段。

今日大家都在搜的词: