首页 > 业界 > 关键词  > OpenLM最新资讯  > 正文

OpenLM:一个专为中等规模语言模型设计的模型训练库

2023-09-28 14:30 · 稿源:站长之家

要点:

1. OpenLM是一个简单且精简的PyTorch代码库,用于训练中等规模的语言模型,旨在最大化GPU利用率和训练速度,易于用于新的语言模型研究和应用。

2. OpenLM通过训练两个语言模型,OpenLM-1B和OpenLM-7B,分别在1.6T和1.25T文本标记上进行验证,并在标准的零样本文本分类和多项选择任务上表现出色。

3. 未来工作包括支持多模态模型、专家混合和数据集组合,以及扩大OpenLM以支持训练更大的模型。

站长之家(ChinaZ.com)9月28日 消息:OpenLM是一个旨在训练中等规模语言模型的PyTorch代码库,它强调了最大化GPU利用率和训练速度的设计。该库已经通过训练OpenLM-1B和OpenLM-7B两个语言模型,分别在1.6T和1.25T的文本标记上进行验证,取得了令人瞩目的成果。OpenLM-1B在零样本文本分类和多项选择任务中表现出色,超越了一些类似规模的竞争模型。OpenLM-7B则在性能上接近了其他大型模型,如LLAMA-7B和MPT-7B。

image.png

文章详细介绍了OpenLM的模型架构、训练数据来源以及训练过程。值得注意的是,OpenLM采用了GPT-NeoX令人满意的分词工具,但采用了LayerNorm而非RMSNorm,因为后者尚未添加融合的RMSNorm操作。此外,1B模型采用了AdamW优化器,而7B模型则采用了不同的学习率和全局批量大小,以实现更好的性能。

文章还提供了有关模型验证和评估的信息,包括验证损失和零样本评估结果。OpenLM-7B在不断的训练中持续提高了零样本性能,在1.25T标记上,在11个任务中有7个任务的表现优于竞争模型。这表明OpenLM具有很大的潜力,并且可以在不断扩大规模的情况下提供出色的性能。

最后,文章提出了未来工作方向,包括支持多模态模型、专家混合和数据集组合,以及扩大OpenLM以支持训练更大的语言模型。OpenLM的团队成员和致谢也在文章中列出,表明了该项目的合作性质和开源精神。

举报

  • 相关推荐
  • M6 iPad Pro将加入VC散热:向iPhone 17 Pro看齐

    随着芯片性能的不断提升,苹果计划为iPad Pro配备VC散热系统,消费者最快会在M6 iPad Pro上看到。 Mark Gurman指出,如果iPhone与iPad Pro配备VC散热系统的尝试取得成功,苹果后续可能会将该技术应用到MacBook Air等其他被动散热设备上。 目前苹果对iPad Pro的更新周期约为18个月,因此下一代iPad Pro预计将在2027年春季发布。

  • 苹果悄然在iOS 26.1中引入新功能:第三方App可以后台备份照片了!

    苹果在iOS 26.1中引入用户期待已久的后台自动备份照片功能,允许第三方应用在后台自动上传图像。此前,Google相册、OneDrive等应用因系统限制只能在应用活动时上传,导致备份中断、体验糟糕。新功能通过PhotoKit框架支持,引入后台资源上传扩展协议,确保应用未活动或设备锁定时也能持续上传。系统会控制功耗和网络访问以保障备份一致性和电池效率。开发者需完成配置扩展目标、处理上传任务等步骤来集成此功能,部分操作需用户明确同意。

  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • 海尔麦浪舒适风Pro天猫首发!当日登顶行业热销榜TOP1

    海尔麦浪舒适风Pro空调新品上市即热销,半小时销量破5000套,登顶行业榜首。其核心亮点在于智慧送风技术:首次采用UWB人感雷达,能精准感知8米内人体呼吸,自动调节风感;支持1-4米定制风距,人近风柔、人离节能;多维送风技术适配多种安装位置,避免直吹不适。产品还具备AI离线语音控制、24小时制热不停机及70℃高温制冷等实用功能,显示空调市场正从基础冷暖需求转向更智能、贴心的空气体验。

  • GEO如何改变ChatGPT搜索和Perplexity的游戏规则

    本文对比ChatGPT与Perplexity两大AI搜索平台:ChatGPT作为全能型助手,整合搜索与多任务处理,但存在信息时效性不足;Perplexity专注垂直搜索,强调引用透明与权威来源。针对AI搜索优化(GEO),提出差异化策略:面向ChatGPT需构建结构化知识库、强化品牌实体识别;面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具,通过曝光率等指标量化内容在AI生态中的可见度,并给出可落地的优化行动方案。

  • MissPep携手《温暖的客栈》,与奥运冠军陈梦共启品质慢生活

    2025年10月16日,美国健康品牌MissPep蜜思派与江苏卫视综艺《温暖的客栈》达成战略合作,成为节目官方合作伙伴。双方通过内容与品牌价值的结合,在健康生活理念传播领域深度探索。节目以“慢生活”为主题,由蒋梦婕、陈梦、黄圣依等嘉宾通过沉浸式体验展现现代人对品质生活的追求。MissPep明星产品补铁小红条在节目中获嘉宾推荐,其“免冲泡直接吃”的创新设计解决了传统营养品使用不便的痛点。此次合作标志着健康产业与文娱产业融合发展的新趋势,通过内容植入实现品牌价值的软性传递。

  • 等等党入手Apple产品最佳时机来了 iPad Pro京东11.11低至8299元起

    京东11.11全面开启,Apple产品自营旗舰店开启降价模式。iPhone 17 Pro系列享300元惊喜券、以旧换新补贴500元起,每日10点抢2100元以旧换新券;iPhone 16系列国补后到手价低至4399元起。iPad、MacBook、AirPods、Apple Watch等全线产品也有专属优惠,如iPad Pro 11英寸M5版享400元券,MacBook Air M2版直降3200元。打开京东搜索“苹果惊喜券”即可直达活动,现货发售,优惠诚意十足。

  • 全球首次!万元相机置换OPPO Find X9 Pro:OPPO最高补贴1400元

    OPPO为Find X9 Pro推出全球专属相机置换补贴,最高补贴1400元,活动10月22日截止。该机搭载哈苏真2亿长焦镜头,采用AOA光学校准技术提升解析力,F2.1超大光圈进光量提升140%,配合70mm黄金焦段与超晶态蓝玻璃,实现行业首个哈苏真两亿直出画质。超动态大底主摄升级第四代曝光技术,支持瞬时三曝,融合高动态与抓拍。全新LUMO超像素引擎支持2亿像素多帧合成,实现可裁切的高画质体验,成像素质媲美中画幅相机。

  • iPhone18发布或推迟 苹果明年9月只发Pro系列和Fold折叠屏

    苹果将调整iPhone发布策略,从今年起实施一年两次的新机发布计划,以填补上半年空档期,应对中国市场份额持续下滑。具体规划包括:2025年下半年推四款iPhone17系列;2026年9月发布iPhone18 Pro系列及首款折叠屏手机;2027年上半年推出iPhone18标准版。其中iPhone18 Pro系列将升级可变光圈和4800万潜望长焦镜头,强化高端市场竞争力。这一调整旨在通过增加发布频率保持市场关注度。

  • 苹果华为OPPO将推出eSIM手机 OPPO Find X9系列已确认将支持

    中国联通、移动、电信三大运营商正式获批开展eSIM手机业务,OPPO Find X9系列将成为首款支持该功能的国产手机,华为Mate80系列也将跟进。国产eSIM手机初期将采用“eSIM+实体卡”双卡设计,保留实体卡槽以满足过渡期需求。行业预计完全取消物理SIM卡槽的手机最早明年出现。eSIM技术将推动手机向更轻薄、防水防尘方向发展,同时为用户提供更灵活的运营商切换体验。随着运营商全面支持,2025年有望成为国内eSIM手机爆发元年。

今日大家都在搜的词: