AI2发布开放语言模型OLMo 号称多项性能媲美Llama2

2024-02-02 14:37 · 稿源：站长之家

**划重点:**
1. 🚀 AI2发布了开放语言模型（OLMo），该框架旨在促进大规模语言模型的研究和实验，通过在Hugging Face和GitHub上提供训练代码、模型和评估代码来实现。
2. 🛠 OLMo的首批模型包括7B规模的四个变体和1B规模的一个模型，涵盖不同的架构、优化器和训练硬件，旨在满足多样化的研究需求。
3. 🌍 该项目的目标是建立全球最好的开放语言模型，已经启动不同规模、模态、数据集、安全措施和评估等方面的工作。

站长之家（ChinaZ.com）2月2日消息:AI2最新发布的开放语言模型（OLMo）框架旨在推动大规模语言模型的研究和实验。通过在Hugging Face和GitHub上提供训练代码、模型和评估代码，AI2致力于让学术界和研究人员能够共同研究语言模型的科学，探索新的预训练数据子集对下游性能的影响，以及研究新的预训练方法和稳定性。

该项目的首批模型包括四个7B规模的最终变体，对应不同的架构、优化器和训练硬件，以及一个1B规模的模型，所有模型均在至少2T令牌上进行了训练。这是一个长期计划的第一步，计划继续发布更大规模的模型、经过指导调整的模型以及更多变体。

每个模型都提供完整的训练数据，包括生成训练数据的代码，以及用于分析预训练数据的AI2的Dolma和WIMBD。此外，还提供了完整的模型权重、训练代码、训练日志、以Weights & Biases日志形式呈现的训练指标，以及推理代码。每个模型的训练过程中的500多个检查点也可在HuggingFace上作为修订版本获得。

在创建强大的开放模型时，AI2从许多其他开放和部分开放的模型中吸取了经验，并将它们作为OLMo的竞争基准。该项目的技术报告提到，OLMo7B模型在诸如生成任务或阅读理解（如truthfulQA）等方面超过了Llama2，但在流行的问答任务(如MMLU或Big-bench Hard)上略显落后。

对于1B OLMo模型，使用AI2的Paloma和可在GitHub上获得的检查点进行了分析，以探讨模型在语言预测和模型规模等因素之间的关系。AI2强调Paloma的方法试图通过均匀采样各个领域，更平衡地表示使用语言模型的众多领域。

OLMo框架采用了最新文献中的许多趋势，包括不使用偏见（如PaLM中的稳定性）、PaLM和Llama使用的SwiGLU激活函数、Rotary位置嵌入(RoPE)以及GPT-NeoX-20B的BPE基础标记器的修改版本，旨在减少个人可识别信息。

该发布仅是OLMo和框架的开端，未来计划推出不同规模、模态、数据集、安全措施和评估等方面的工作。AI2鼓励使用OLMo模型，提供了简便的安装步骤和使用示例，并表示未来将推出指导调整的模型、完整的训练日志和wandb报告等功能。

博客网址:https://blog.allenai.org/olmo-open-language-model-87ccfc95f58

项目入口：https://top.aibase.com/tool/olmo

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Meta新大语言模型LLama 3将在英特尔和高通硬件上运行

Meta最近发布了LLama3，这是一款新的大型语言模型，用于实现更安全、更准确的生成式人工智能体验。除了LLM，Meta还推出了LlamaGuard2、CodeShield和CyberSecEval2等信任和安全工具，以帮助确保符合行业和用户安全期望。随着400亿参数显示出更高的准确性，可以推断出更高的AI硬件需求不会很快减少。

Meta LLama3 AI头条
Meta即将推出新一代Llama3大语言模型

MetaPlatforms公司计划在下周推出Llama3大语言模型的两个小参数版本，作为即将在2024年夏天推出的Llama3最大版本的前奏。Llama3最高版本可能拥有超过1400亿个参数，这将使其性能有望赶上OpenAI最新的GPT-4Turbo版本。Meta正在全力推进Llama3的开发，这不仅体现了该公司在AI领域的野心，也为用户带来了更加智能和开放的AI服务的期待。

语言模型 Llama3 多模态技术
性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

JetMoE-8B是一款采用稀疏激活架构的人工智能模型，其性能卓越且训练成本不到10万美元，令人惊讶的是，它的表现甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。JetMoE-8B由24个块组成，每个块包含两个MoE层:注意力头混合和MLP专家混合。这不仅证明了其在性能上的优势，也展示了其在成本效益上的显著优势。

JetMoE-8B 大模型 AI头条
Llama 3官网体验入口 Meta最新开源语言模型免费使用地址

MetaLlama3是Meta公司最新推出的一款开源大型语言模型。它在多项行业基准测试中表现出色，性能卓越，可支持广泛的使用场景，包括改善推理能力等新功能。要了解更多信息，请访问MetaLlama3官方网站。

Llama3 Meta 开源模型
WebLlama：基于Llama-3-8B的智能网页浏览代理

WebLlama是一款基于Llama-3-8B模型的智能代理，它通过对话与用户互动，执行网页浏览相关的任务。这款工具能够处理连续的对话，理解并执行用户的指令，自动完成网上搜索、导航和信息检索等操作。随着技术的不断进步和优化，WebLlama有望在自动化网页浏览和信息收集方面发挥更大的作用。

WebLlama AI头条
最强大模型Llama 3正式发布已达GPT4级别

Meta公司宣布了一项重大技术进展，发布了其最新的开源模型——Llama3。这一模型包含两种参数规模:8B和70B，预计将于今年7月正式面世。MetaAI还整合了搜索功能，可以直接访问网络上的实时信息，无需切换应用。

Llama3 AI头条
ChatGPT平替！本地部署Llama2 ，贝锐花生壳3步远程访问

Llama2是由MetaAI开发的一款先进的人工智能模型，专注于理解和生成人类语言文本。这一模型自2023年推出以来，已成为自然语言AI处理领域的一个关注点。由于内容生成式AI工具对算力的高要求，部署在高性能主机或服务器上的Llama2面临着远程访问的难题，这时贝锐花生壳内网穿透技术成为了一个简单有效的解决方案，简单的三步操作，用户可以轻松实现远程访问本地部署的Llama2，无需复杂的网络配置节省了大量时间成本，如需了解贝锐花生壳更多的AI场景应用或申请试用，可以搜索“贝锐花生壳”进入官网。

人工智能自然语言处理开源模型
Ollama更新优化软件并支持Command R+等多个热门模型

Ollama软件的最新更新为用户带来了一系列显著的性能提升和新功能。这次更新主要集中在优化软件性能，提高VRAM的利用率，减少内存不足的错误，并改善GPU的运行效率。无论是研究人员、开发者还是普通用户，都能够从Ollama的新功能和模型支持中受益。

Ollama AI头条
LLaVA++：为Phi-3和Llama-3模型增加视觉处理能力

LLaVA项目通过扩展现有的LLaVA模型，成功地为Phi-3和Llama-3模型赋予了视觉能力。这一改进标志着AI在多模态交互领域的进一步发展。LLaVA的推出，预示着未来AI模型将更加智能和灵活，能够更好地服务于需要视觉与文本结合理解的复杂场景。

Phi-3 LLaVA++
延迟降低2倍！英特尔披露至强6处理器针对Meta Llama 3模型的推理性能

近日，Meta重磅推出其80亿和700亿参数的MetaLlama3开源大模型。该模型引入了改进推理等新功能和更多的模型尺寸，并采用全新标记器，旨在提升编码语言效率并提高模型性能。即使80亿参数的Llama3模型比70亿参数的Llama2模型参数更高，在AWSm7i.metal-48xl实例上运行BF16推理时，整体prompt的推理时延几乎相同。

Meta Llama 3

今日大家都在搜的词：

热文

3 天
7天

AI2发布开放语言模型OLMo 号称多项性能媲美Llama2

今日大家都在搜的词：

热文

站长商机