首页 > 业界 > 关键词  > OLMo最新资讯  > 正文

AI2发布开放语言模型OLMo 号称多项性能媲美Llama2

2024-02-02 14:37 · 稿源:站长之家

**划重点:**

1. 🚀 AI2发布了开放语言模型(OLMo),该框架旨在促进大规模语言模型的研究和实验,通过在Hugging Face和GitHub上提供训练代码、模型和评估代码来实现。

2. 🛠 OLMo的首批模型包括7B规模的四个变体和1B规模的一个模型,涵盖不同的架构、优化器和训练硬件,旨在满足多样化的研究需求。

3. 🌍 该项目的目标是建立全球最好的开放语言模型,已经启动不同规模、模态、数据集、安全措施和评估等方面的工作。

站长之家(ChinaZ.com)2月2日 消息:AI2最新发布的开放语言模型(OLMo)框架旨在推动大规模语言模型的研究和实验。通过在Hugging Face和GitHub上提供训练代码、模型和评估代码,AI2致力于让学术界和研究人员能够共同研究语言模型的科学,探索新的预训练数据子集对下游性能的影响,以及研究新的预训练方法和稳定性。

image.png

该项目的首批模型包括四个7B规模的最终变体,对应不同的架构、优化器和训练硬件,以及一个1B规模的模型,所有模型均在至少2T令牌上进行了训练。这是一个长期计划的第一步,计划继续发布更大规模的模型、经过指导调整的模型以及更多变体。

每个模型都提供完整的训练数据,包括生成训练数据的代码,以及用于分析预训练数据的AI2的Dolma和WIMBD。此外,还提供了完整的模型权重、训练代码、训练日志、以Weights & Biases日志形式呈现的训练指标,以及推理代码。每个模型的训练过程中的500多个检查点也可在HuggingFace上作为修订版本获得。

image.png

在创建强大的开放模型时,AI2从许多其他开放和部分开放的模型中吸取了经验,并将它们作为OLMo的竞争基准。该项目的技术报告提到,OLMo7B模型在诸如生成任务或阅读理解(如truthfulQA)等方面超过了Llama2,但在流行的问答任务(如MMLU或Big-bench Hard)上略显落后。

对于1B OLMo模型,使用AI2的Paloma和可在GitHub上获得的检查点进行了分析,以探讨模型在语言预测和模型规模等因素之间的关系。AI2强调Paloma的方法试图通过均匀采样各个领域,更平衡地表示使用语言模型的众多领域。

OLMo框架采用了最新文献中的许多趋势,包括不使用偏见(如PaLM中的稳定性)、PaLM和Llama使用的SwiGLU激活函数、Rotary位置嵌入(RoPE)以及GPT-NeoX-20B的BPE基础标记器的修改版本,旨在减少个人可识别信息。

该发布仅是OLMo和框架的开端,未来计划推出不同规模、模态、数据集、安全措施和评估等方面的工作。AI2鼓励使用OLMo模型,提供了简便的安装步骤和使用示例,并表示未来将推出指导调整的模型、完整的训练日志和wandb报告等功能。

博客网址:https://blog.allenai.org/olmo-open-language-model-87ccfc95f58

项目入口:https://top.aibase.com/tool/olmo

举报

  • 相关推荐
  • 三星Galaxy Z Fold7以创新AI体验实现全场景“一步智联”

    三星Galaxy Z Fold7通过Galaxy AI与多模态技术深度融合,重新定义智能手机价值。其极致轻薄折叠设计结合8英寸沉浸屏,搭载升级版Bixby实现语音、文本、视觉的智能交互,支持多任务并行处理。"即圈即搜"简化信息获取,AI助手能转录音频、生成摘要、规划行程,并具备专业影像编辑能力。从办公到生活场景,该设备以直观操作提升效率,成为用户可靠的智慧伴侣。

  • 科普 | 读懂HBM和DRAM,才懂AI算力未来

    在AI算力需求激增的背景下,存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术:SRAM凭借高速读写特性在CPU缓存中不可替代;DRAM作为数字世界的“主内存”,在容量与速度间实现平衡;HBM则通过3D堆叠架构革命性提升带宽,突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长,预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破,并开始布局HBM技术,正通过持续技术积累提升在全球半导体生态中的地位。

  • AI生万物,移往无前 | 第12届TMA大奖终审会成功举办

    11月1日,第12届TMA大奖终审会在云南玉溪成功举办。本届赛事聚焦移动营销与AI创新,新增数智营销、AI创新等赛道,细分短剧营销、节日/事件营销等类别。60余位行业专家评审入围案例,最终获奖结果将于12月19日盛典揭晓。活动搭建了行业交流平台,推动营销与AI技术融合发展。

  • Mini LED时代即将终结!MacBook Pro将升级为OLED屏

    苹果爆料人Mark Gurman透露,MacBook Pro会率先升级OLED,时间是明年下半年,然后MacBook Air再跟进OLED,时间是2028年,届时MacBook Pro和MacBook Air都将全面迈入OLED时代。 Mark Gurman指出,苹果旗下的iPad系列、MacBook机型全部都将启用OLED屏幕,包括iPad mini、MacBook Pro、iPad Air和MacBook Air,且大概率会按此顺序推进。PS:入门款iPad暂无搭载OLED的计划。 值得注意的是,MacBo

  • 活字格通过信通院智能体专项测试,以All-in-One能力加速企业AI落地

    葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试,成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构,覆盖数据管理、模型接入、插件开发等八大能力域,具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平,可为企业提供低门槛智能体落地解决方案,已在制造、政务、医疗等领域深度应用,助力企业数字化转型。

  • AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归

    本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • 未来iPad mini/iPad Air/MacBook都将升级OLED屏:LCD退场

    苹果正在研发搭载OLED显示屏的iPad mini、iPad Air、MacBook Pro和MacBook Air机型,苹果已在iPad Pro中采用OLED屏,并计划在未来数月及数年内将OLED推广到更多设备上,从而淘汰LCD屏幕。 具体来看,iPad mini最快会在2026年配备OLED屏,同时会提升防水性能,新款iPad mini也因此涨价100美元。 至于iPad Air,其商用OLED的时间要晚于iPad mini,爆料称2026年春季亮相的iPad Air将继续使用LCD屏幕,但后续

今日大家都在搜的词: