首页 > 业界 > 关键词  > LLM360最新资讯  > 正文

LLM360: 首个完全开源和透明的大语言模型

2023-12-14 11:48 · 稿源:站长之家

**划重点:**

1. 🌐 开源LLMs(如LLaMA、Falcon和Mistral)选择性公开了组件,而LLM360计划通过完全开源训练过程,支持AI研究的透明性和可重复性。

2. 🚀 LLM360发布两个7B参数的LLMs,AMBER和CRYSTALCODER,附带训练代码、数据、中间检查点和分析,旨在推动开源LLMs的全面透明。

3. 📈 研究在四个数据集上展示了AMBER模型在预训练期间的性能,强调对LLMs进行全方位开源,包括释放检查点、数据块和评估结果,以实现全面分析和可重复性。

站长之家(ChinaZ.com)12月14日 消息:在众多开源的大型语言模型(LLMs)中,如LLaMA、Falcon和Mistral等,大多数仅公开了特定组件,如最终模型权重或推理脚本。技术文档通常集中在更广泛的设计方面和基本指标上,限制了该领域的进展,因为训练方法的清晰度不足,导致团队不断努力揭示训练过程的众多方面。

image.png

为支持开放和协作的AI研究,来自Petuum、MBZUAI、USC、CMU、UIUC和UCSD的研究人员推出了LLM360。这一倡议旨在通过使端到端LLM训练过程对每个人都透明且可重现,全面开源LLMs。LLM360的目标是让所有训练代码和数据、模型检查点以及中间结果都能为社区所用。

与LLM360最接近的项目是Pythia,也旨在实现LLMs的完全可重复性。EleutherAI模型,如GPT-J和GPT-NeoX,已发布了训练代码、数据集和中间模型检查点,展示了开源训练代码的价值。INCITE、MPT和OpenLLaMA发布了训练代码和训练数据集,RedPajama也发布了中间模型检查点。

LLM360发布了两个7B参数的LLMs,分别是AMBER和CRYSTALCODER,连同它们的训练代码、数据、中间检查点和分析。研究回顾了预训练数据集的详细信息,包括数据预处理、格式、数据混合比例以及LLM模型的架构细节。

研究提到了在先前工作中引入的记忆得分,并发布了研究人员易于找到其对应物的度量、数据块和检查点。该研究还强调了消除LLMs预先训练的数据的重要性,以及有关数据过滤、处理和训练顺序的详细信息,以评估LLMs的风险。

image.png

研究在四个数据集(ARC、HellaSwag、MMLU和TruthfulQA)上展示了模型在预训练期间的性能。HellaSwag和ARC的评估分数在预训练期间单调增加,而TruthfulQA的分数下降。MMLU的分数最初下降,然后开始增长。相对于ARC,AMBER的性能在诸如MMLU之类的分数上相对竞争,但在ARC方面稍逊色。微调的AMBER模型在性能上表现强于其他类似模型。

LLM360是一个推动开源LLMs全面透明的倡议。该研究发布了两个7B LLMs,AMBER和CRYSTALCODER,连同它们的训练代码、数据、中间模型检查点和分析。该研究强调了从各个角度开源LLMs的重要性,包括释放检查点、数据块和评估结果,以实现全面分析和可重复性。阅读论文以获取更多信息,对这项研究的所有贡献归功于该项目的研究人员。如果您喜欢他们的工作,不要忘记加入ML SubReddit、Facebook社群、Discord频道和电子邮件通讯,以获取最新的AI研究新闻和有趣的AI项目。

论文网址:https://arxiv.org/abs/2312.06550

项目网址:https://t.co/ZcLPtYQhdQ

举报

  • 相关推荐
  • 强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

    2025年9月29日,深度求索公司发布新一代模型架构DeepSeek-V3.2,引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本,在V3.1-Terminus基础上引入稀疏注意力机制,优化长文本训练和推理效率。目前官方应用端已同步更新,API大幅降价。此次模型体积达671GB,下载需8-10小时。业内专家指出,此次快速适配表明双方早有深度技术协�

  • 卡萨帝发明底置循环风幕科技,30天原汁原味延长至60天

    卡萨帝发布致境冰箱,通过-30℃深冷速冻与循环风幕技术,解决高端食材冷冻后口感干柴、营养流失的行业难题。该技术能瞬间锁住细胞水分,确保温度波动≤0.1℃,使牛肉冷冻60天后汁液损失≤2%,谷氨酸留存率≥102.2,果蔬维生素保留率超99%。搭载原创平嵌设计,实现保鲜科技与家居美学的融合,重构现代厨居生活方式。

  • 破解海外旅游语言困境,时空壶新T1以端侧模型开启全球畅行

    国庆假期临近,海外旅游热度攀升,语言沟通成为游客面临的主要障碍。网络不稳定更使依赖在线翻译工具的旅行者陷入困境。时空壶新T1翻译机通过端侧AI模型,实现无网或弱网环境下的流畅翻译,支持31种语言互译,覆盖全球98%主流旅游地。其离线翻译准确率达90%,响应迅速,并具备拍照翻译和降噪功能,有效解决机场、餐厅等嘈杂场所的沟通难题。新T1助力游客跨越语言壁垒,尽享无忧旅程,真正实现“无网也能畅行全球”。

  • 从品牌咨询到语言培训:小鹅通如何助力花花语言艺术实现培训产品数字化落地

    文章介绍小鹅通平台助力语言培训品牌“花花语言艺术”实现数字化转型的案例。创始人任瑞丽从品牌咨询转型,创立“母语应用式”培训体系,通过小鹅通完成产品数字化、私域运营等全链路升级,服务超1万用户。该案例体现了小鹅通以工具赋能为核心理念,帮助培训从业者实现业务可持续增长,未来将继续深化合作,完善表达训练体系并拓展文化传播领域。

  • iOS 26.1首个Beta版更新发布 苹果AI支持更多语言

    苹果发布iOS 26.1开发者预览版Beta更新,内部版本号23B5044l。主要更新包括:Apple Intelligence新增丹麦语、荷兰语、挪威语、葡萄牙语、瑞典语、土耳其语、繁体中文及越南语支持;AirPods实时翻译功能扩展至日语、韩语、意大利语和中文(含繁简);电话应用数字键盘采用全新液态玻璃设计。此外,Apple Music支持滑动切换歌曲,照片、日历和Safari浏览器迎来视觉优化。iOS 26正式版已于9月16日推送,适配第二代iPhone SE及之后共25款机型,iPhone 17系列和iPhone Air出厂预装该系统。

  • 从260万销量到全新升级!沃尔沃销量王XC60备受关注!

    沃尔沃全新XC60于2025年6月26日正式上市,延续品牌百年安全基因,针对新时代家庭用户需求全面升级。外观采用北欧设计语言,新增松湖绿、森莓红等配色及极夜黑版本,搭配豪华运动双风格,内饰引入北欧漂流木饰条与Nordico®环保材质,提升豪华质感。智能方面搭载高通骁龙8155芯片与11.2英寸悬浮中控屏,响应更快,并配备Bowers & Wilkins®音响系统与AI语音助手“小沃”,覆盖导航、娱乐等场景。通过多项NVH优化措施,打造静谧驾乘空间。作为全球销量超260万辆的畅销车型,XC60凭借安全性与高品质屡获权威奖项,重新定义家用豪华SUV标准。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • 6元的鸡排为何能吃出60元的情绪价值 幽默服务成商家新宠

    近年来,以幽默服务为核心的消费体验悄然走红。商家通过真诚互动与轻松氛围,让顾客仅花6元购买鸡排,却收获价值60元的情绪满足。这种“花小钱买大快乐”的模式正成为餐饮业新趋势,取代传统打折促销,以“情绪共鸣”为核心竞争力。店员用玩笑、幽默互动与干净环境营造愉悦消费场景,精准击中现代消费者对情感联结的需求。业内分析指出,在物质需求基本满足的当下,情绪价值已成为影响消费决策的关键。这种“轻物质、重情绪”的模式为餐饮业提供了转型思路,兼顾产品质量与情感服务或能开辟差异化发展路径。

  • vivo X300系列行业首发4K 60帧电影人像视频:出巨片

    9月26日,vivo举办X系列蓝图影像技术沟通会,正式发布X300系列。该系列首发行业首个4K 60帧电影人像视频,支持人像美颜、虚化及冷胶等多种风格,搭载天玑9500旗舰芯片和自研影像芯片V3+,实现画质、美化和流畅度全面升级。新增冷胶、负片风格,支持双焦段4K 120fps慢动作、杜比视界HDR及10bit Log视频,夜景人像通过“电子柔光箱”算法提升光线柔和度30%,搭配闪光灯和烟花人像算法,软硬协同优化拍摄体验。vivo美学算法升级,蔡司自然人像还原原生感,肌肤纹理立体细腻,经典通透人像更真实清透。

  • 女生住60层以上遇台风 半夜被晃醒:直言有点像坐地铁

    台风“桦加沙”近日袭击广东及香港地区。在香港读书的孙女士因居住于60层以上高楼,亲历惊险过程:23日下午尚正常,24日凌晨2点后风力骤增,整栋楼剧烈摇晃如坐地铁,厨房风声似口哨,空调、灯具随之震动。出于安全考虑,她与室友在无窗客厅静坐两小时,密切关注情况,至凌晨4点多风力减弱才返回屋内。孙女士感慨虽首次经历强台风,幸得网友提醒帮助及时应对。她提醒高层居民做好加固门窗、远离玻璃、储备饮水等防护,以防水电中断。

今日大家都在搜的词: