小却强大！TinyLlama：仅用90天、3万亿token训练的 550MB AI模型

2023-09-08 14:31 · 稿源：站长之家

文章概要:

1. TinyLlama:一款小型但强大的AI模型，由新加坡科技设计大学的研究团队开发，仅占用550MB内存。

2. 该模型采用了稳定扩散XL技术，计划在90天内在3万亿代币的数据集上进行训练，旨在适应内存受限的边缘设备。

3. TinyLlama的成功将为实时机器翻译等多种应用提供高性能AI解决方案。

站长之家（ChinaZ.com）9月8日消息:新加坡科技设计大学的研究人员正进行一项引人注目的项目，他们正在努力创建一款小型但强大的AI模型，这个模型被称为TinyLlama，它采用了一种紧凑的设计，仅占用550MB的内存。

这一模型的独特之处在于，它将在3万亿token的数据集上进行训练，这个庞大的数据集将在短短90天内完成训练。

这个项目的目标是为内存受限的边缘设备提供高性能的人工智能解决方案。越来越多的开发者要求创建更小的AI模型，因为对于内存和计算能力受限的边缘设备来说，较少的参数更加优化。此外，较小的模型还可以用来协助解码更大的模型，正如前特斯拉高级AI总监Andrej Karpathy所言。

TinyLlama项目由新加坡科技设计大学的研究助理领导，他们试图在三万亿token的数据集上预训练一个11亿token的Llama模型。这个模型仅占用550MB的内存，团队认为它的紧凑性将使它能够满足多种应用的需求，这些应用需要受限的计算和内存占用，以实现诸如无需互联网连接的实时机器翻译等功能。

TinyLlama的训练于9月1日开始，使用了16个A100-40G GPU，团队计划在短短90天内完成训练。截止到目前，团队已完成了1050亿token的训练。

模型的构建者表示，他们正在使用与Meta用于训练Llama2的“完全相同的架构和分词器”，因此它可以轻松应用于基于Llama构建的开源项目。

TinyLlama团队正在使用包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集，这些数据集曾用于训练StarCoder，这是一个代码生成模型。

一旦完成，TinyLlama将加入越来越多的较小语言模型的行列，这些模型由开发者用于构建各种应用。同时，EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b也在取得进展。

项目网址:https://github.com/eivindbohler/tinyllama

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
最强大模型Llama 3正式发布已达GPT4级别

Meta公司宣布了一项重大技术进展，发布了其最新的开源模型——Llama3。这一模型包含两种参数规模:8B和70B，预计将于今年7月正式面世。MetaAI还整合了搜索功能，可以直接访问网络上的实时信息，无需切换应用。

Llama3 AI头条
WebLlama：基于Llama-3-8B的智能网页浏览代理

WebLlama是一款基于Llama-3-8B模型的智能代理，它通过对话与用户互动，执行网页浏览相关的任务。这款工具能够处理连续的对话，理解并执行用户的指令，自动完成网上搜索、导航和信息检索等操作。随着技术的不断进步和优化，WebLlama有望在自动化网页浏览和信息收集方面发挥更大的作用。

WebLlama AI头条
荐Llama 3每秒输出800个token逼宫openAI！下周奥特曼生日或放出GPT-5？

【新智元导读】Llama3的开源，或将催生数十亿美元新产业。发布不到一周的时间，全网各种测试微调都开启了。但在还没有发布GPT-5之前，初创公司需要有危机感了。

openAI GPT-5
阿里云推出针对Llama 3系列模型限时免费训练、部署、推理服务

Meta公司发布了全新的Llama3系列阿里云魔搭社区迅速响应，将这一系列的四款模型全部上架。阿里云百炼大模型服务平台更是宣布，将提供针对Llama3系列的限时免费训练、部署和推理服务，旨在帮助企业和开发者利用这一强大工具，快速构建属于自己的专属大模型。企业和开发者只需在阿里云百炼模型广场进行申请，一旦通过，便能迅速体验Llama3的卓越性能，并与其他模型进行直观的比较。
阿里云宣布全方位支持Llama 3训练推理帮助开发者构建自己的大模型

阿里云百炼大模型服务平台近期宣布了一项重要的支持计划，即为Meta公司最新开源的Llama3系列大语言模型提供全方位的支持。这项服务包括限时免费的模型训练、部署和推理服务，旨在帮助企业和开发者在阿里云平台上构建和优化自己的专属大模型。通过结合阿里云强大的云计算资源和Llama3模型的先进性能，企业和开发者将能够开发出更加智能和高效的AI应用，加速AI技术的创

阿里云百炼大模型 AI头条
性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

JetMoE-8B是一款采用稀疏激活架构的人工智能模型，其性能卓越且训练成本不到10万美元，令人惊讶的是，它的表现甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。JetMoE-8B由24个块组成，每个块包含两个MoE层:注意力头混合和MLP专家混合。这不仅证明了其在性能上的优势，也展示了其在成本效益上的显著优势。

JetMoE-8B 大模型 AI头条
LLaVA++：为Phi-3和Llama-3模型增加视觉处理能力

LLaVA项目通过扩展现有的LLaVA模型，成功地为Phi-3和Llama-3模型赋予了视觉能力。这一改进标志着AI在多模态交互领域的进一步发展。LLaVA的推出，预示着未来AI模型将更加智能和灵活，能够更好地服务于需要视觉与文本结合理解的复杂场景。

Phi-3 LLaVA++
荐Llama 3突然来袭！开源社区再次沸腾：GPT-4级别模型可以自由访问的时代到来

Llama3来了!就在刚刚，Meta官网上新，官宣了Llama380亿和700亿参数版本。并且推出即为开源SOTA:Meta官方数据显示，Llama38B和70B版本在各自参数规模上超越一众对手。好在乌龙完了，官方也没拖着，关心开源大模型的小伙伴们，可以造作起来了。

Llama3
荐AI日报：最强大模型Llama 3发布；Midjourney推社交新功能Room；超强AI视频自动剪辑工具Captions；手机上可以玩大模型了

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、最强大模型Llama3正式发布Llama3是Meta公司最新发布的开源模型，拥有80亿和700亿参数规模，预计7月正式发布。教师免费使用该AI平台设计个性化课堂体验，提供实时洞察力支持学�

Llama3
阿里开源千亿参数模型 Qwen1.5-110B，性能超越 Meta-Llama3-70B

阿里巴巴宣布开源其最新的Qwen1.5系列语言模型-Qwen1.5-110B。这是Qwen1.5系列中规模最大的模型，也是该系列中首个拥有超过1000亿参数的模型。它在与最近发布的SOTA模型Llama-3-70B的性能上表现出色，并且明显优于72B模型。

今日大家都在搜的词：

热文

3 天
7天

小却强大！TinyLlama：仅用90天、3万亿token训练的 550MB AI模型

今日大家都在搜的词：

热文

站长商机