首页 > 业界 > 关键词  > Dolma最新资讯  > 正文

AI2发布大语言模型开源数据集Dolma 包含3万亿个token

2023-08-24 09:37 · 稿源:站长之家

文章概要:

1. AI2推出开源数据集Dolma,包含3万亿个token,来自各类网络内容、学术出版物等。

2. Dolma主要以英文文本为主,遵循开放许可,免费向研究人员开放。

3. Dolma作为开放语言模型OLMo的基础,OLMo计划2024年初发布。

站长之家(ChinaZ.com)8月24日 消息:美国艾伦人工智能研究所(AI2)最近发布了一个名为Dolma的开源数据集,其包含了3万亿个token,这些词汇来自包括网络内容、学术出版物、代码和书籍等广泛的来源。Dolma是目前公开可用的同类数据集中最大的一个。

image.png

Dolma的数据将为AI2正在开发中的开放语言模型OLMo提供基础。OLMo的目标是成为“最好的开放语言模型”,计划于2024年初发布。为了开发OLMo,AI2构建了庞大的Dolma数据集。

Dolma第一个版本主要以英文文本为主。研究人员使用语言识别模型对数据进行筛选。为弥补少数语言方言的偏差,团队将模型判断为英文置信度50%以上的所有文本都包括在内。未来版本将会包括其他语言。

image.png

Dolma以开放许可的形式免费向研究人员开放。研究人员需要提供联系信息并同意Dolma的预期用途。同时建立机制允许根据要求删除个人数据。

Dolma的数据大部分来自非营利的Common Crawl项目收集的网络数据。此外还包含其他网络页面、学术文本、代码示例、书籍等。

在AI2看来,理想的数据集应该满足几个标准:开放性、代表性、规模和再现性。它还应该最大限度地减少风险,尤其是那些可能影响个人的风险。

image.png

项目网址:https://huggingface.co/datasets/allenai/dolma

举报

  • 相关推荐
  • 开源机器学习库vLLM 提升大语言模型推理速度

    大语言模型在改变人们的生活和职业方面影响越来越大,因为它们实现了编程助手和通用聊天机器人等新应用。这些应用的运行需要大量硬件加速器如GPU,操作成本非常高。更大的模型、更复杂的解码算法和更长的序列会导致更明显的改进。

  • 秒懂生成式AI大语言模型是如何生成内容的?

    备受关注的大语言模型,核心是自然语言的理解与文本内容的生成,对于此,你是否好奇过它们究竟是如何理解自然语言并生成内容的,其工作原理又是什么呢?要想了解这个,我们就不得不先跳出大语言模型的领域,来到机器翻译这里。传统的机器翻译方式是采用RNN循环神经网络。以上就是大语言模型的工作原理了,强大Transformer的实用性还不止于在自然语言处理领域,包括�

  • AI研究人员发现了主要大语言模型中关键漏洞 可低成本复制

    大型语言模型如ChatGPT和Bard在全球范围内引起了广泛的关注,众多公司投资数百万美元用于开发这些人工智能工具一些领先的AI聊天机器人的估值已达到了数十亿美元。这些LLM主要被应用于AI聊天机器人,它们通过整合互联网上的大量信息来学习和为用户提供请求的答案,这些请求通常被称为“提示”。”这项研究为我们提醒了虽然AI技术带来了巨大的机会,但也伴随着一系列潜在的威胁,因此必须谨慎行事。

  • Hugging Face 大语言模型三大优化技术

    大语言模型的生产部署面临着两个主要挑战:一是需要庞大的参数量,二是需要处理超长的上下文信息输入序列。HuggingFace基于他们在提供大型模型服务方面的经验,分享了一些应对这些难题的技术。文章深入剖析了大语言模型优化的关键技术点,对于产业实践具有重要参考价值。

  • 智源开源中英文语义向量模型训练数据集MTP

    智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP。这是全球最大的中、英文文本对训练数据集,数据规模达3亿对,希望推动解决中文模型训练数据集缺乏问题。作为中国大模型开源生态圈的代表机构,智源持续进行包括数据在内的大模型全栈技术开源,推动人工智能协同创新。

  • 多用途大语言模型SynthIA-7B-v1.3:可用于教学、写作等多领域

    SynthIA-7B-v1.3是一个七十亿参数的大型语言模型,是基于Orca风格数据训练的Mistral-7B-v0.1模型的进化版本。它在各种任务上表现出色,包括文本生成、语言翻译、原创内容创作以及深入问题回答。如果您需要一个强大灵活的语言模型,SynthIA-7B-v1.3是一个不错的选择。

  • 「深呼吸」让大模型表现更佳!谷歌DeepMind利用大语言模型生成Prompt,还是AI更懂AI

    【新智元导读】谷歌DeepMind提出了一个全新的优化框架OPRO,仅通过自然语言描述就可指导大语言模型逐步改进解决方案,实现各类优化任务。「深呼吸,一步一步地解决这个问题。这项研究首次提出并验证了使用大语言模型进行优化的有效性,为利用LLM进行更广泛优化任务提供了框架和经验,是这个新的研究方向的开拓性工作,具有重要意义。

  • 大语言模型迎来重大突破!找到解释神经网络行为方法

    获得亚马逊40亿美元投资的ChatGPT主要竞争对手Anthropic在官网公布了一篇名为《朝向单义性:通过词典学习分解语言模型》的论文,公布了解释经网络行为的方法。由于神经网络是基于海量数据训练成,其开发的AI模型可以生成文本、图片、视频等一系列内容。理解神经网络行为,对增强大语言模型的安全性、准确性至关重要。

  • Stability AI发布移动端语言模型Stable LM 3B

    StabilityAI发布了最新的语言模型StableLM3B,该模型是为便携式数字设备设计的,参数规模为30亿,比行业通常使用的70亿参数模型要小,具有更高的性能和可移植性。StableLM3B具有较小的体积和高效性的优势,需要更少的资源和较低的运行成本,使其对大多数用户来说更加可承受。该模型已在HuggingFace平台上发布,可以下载权重进行尝试。

  • LongLoRA:超长上下文,大语言模型高效微调方法

    麻省理工学院和香港中文大学联合发布了LongLoRA,这是一种全新的微调方法,可以增强大语言模型的上下文能力无需消耗大量算力资源。想增加大语言模型的上下文处理能力,需要更多的算力支持。LongLoRA在大型语言模型领域提出了创新方法,在处理大量信息时,也可以更轻松、更高效地微调这些模型必须消耗更多的算力资源。