小米发布大语言模型MiLM-6B 参数规模64亿

2023-08-11 14:35 · 稿源：站长之家

站长之家(ChinaZ.com) 8月11日消息:近日，小米发布了大规模预训练语言模型MiLM-6B ，参数规模为64亿。在 C-Eval 和 CMMLU 上均取得同尺寸最好的效果。

据悉，在 C-Eval 评估中，MiLM-6B 的平均分为60.2，在 STEM、Social Sciences、Humanities 和 Others 等不同学科和难度级别上也表现出色。

微信截图_20230811143528.png

在 CMMLU 评估中，MiLM-6B 在 zero-shot 和 five-shot 测试中的平均分分别为60.37和57.17，表现出良好的知识和推理能力。

目前，该模型相关信息还在不断更新中。

项目地址：https://github.com/XiaoMi/MiLM-6B

（举报）

相关推荐

关键词：

Hugging Face 大语言模型三大优化技术

大语言模型的生产部署面临着两个主要挑战:一是需要庞大的参数量，二是需要处理超长的上下文信息输入序列。HuggingFace基于他们在提供大型模型服务方面的经验，分享了一些应对这些难题的技术。文章深入剖析了大语言模型优化的关键技术点，对于产业实践具有重要参考价值。

大模型
荐秒懂生成式AI—大语言模型是如何生成内容的？

备受关注的大语言模型，核心是自然语言的理解与文本内容的生成，对于此，你是否好奇过它们究竟是如何理解自然语言并生成内容的，其工作原理又是什么呢?要想了解这个，我们就不得不先跳出大语言模型的领域，来到机器翻译这里。传统的机器翻译方式是采用RNN循环神经网络。以上就是大语言模型的工作原理了，强大Transformer的实用性还不止于在自然语言处理领域，包括�

生成式AI
开源机器学习库vLLM 提升大语言模型推理速度

大语言模型在改变人们的生活和职业方面影响越来越大，因为它们实现了编程助手和通用聊天机器人等新应用。这些应用的运行需要大量硬件加速器如GPU，操作成本非常高。更大的模型、更复杂的解码算法和更长的序列会导致更明显的改进。

vLLM
OpenLM：一个专为中等规模语言模型设计的模型训练库

OpenLM是一个旨在训练中等规模语言模型的PyTorch代码库，它强调了最大化GPU利用率和训练速度的设计。该库已经通过训练OpenLM-1B和OpenLM-7B两个语言模型，分别在1.6T和1.25T的文本标记上进行验证，取得了令人瞩目的成果。OpenLM的团队成员和致谢也在文章中列出，表明了该项目的合作性质和开源精神。

OpenLM
荐大语言模型迎来重大突破！找到解释神经网络行为方法

获得亚马逊40亿美元投资的ChatGPT主要竞争对手Anthropic在官网公布了一篇名为《朝向单义性:通过词典学习分解语言模型》的论文，公布了解释经网络行为的方法。由于神经网络是基于海量数据训练成，其开发的AI模型可以生成文本、图片、视频等一系列内容。理解神经网络行为，对增强大语言模型的安全性、准确性至关重要。

大模型
多用途大语言模型SynthIA-7B-v1.3：可用于教学、写作等多领域

SynthIA-7B-v1.3是一个七十亿参数的大型语言模型，是基于Orca风格数据训练的Mistral-7B-v0.1模型的进化版本。它在各种任务上表现出色，包括文本生成、语言翻译、原创内容创作以及深入问题回答。如果您需要一个强大灵活的语言模型，SynthIA-7B-v1.3是一个不错的选择。

SynthIA-7B-v1.3 大语言模型 AI头条
AI研究人员发现了主要大语言模型中关键漏洞可低成本复制

大型语言模型如ChatGPT和Bard在全球范围内引起了广泛的关注，众多公司投资数百万美元用于开发这些人工智能工具一些领先的AI聊天机器人的估值已达到了数十亿美元。这些LLM主要被应用于AI聊天机器人，它们通过整合互联网上的大量信息来学习和为用户提供请求的答案，这些请求通常被称为“提示”。”这项研究为我们提醒了虽然AI技术带来了巨大的机会，但也伴随着一系列潜在的威胁，因此必须谨慎行事。
LongLoRA：超长上下文，大语言模型高效微调方法

麻省理工学院和香港中文大学联合发布了LongLoRA，这是一种全新的微调方法，可以增强大语言模型的上下文能力无需消耗大量算力资源。想增加大语言模型的上下文处理能力，需要更多的算力支持。LongLoRA在大型语言模型领域提出了创新方法，在处理大量信息时，也可以更轻松、更高效地微调这些模型必须消耗更多的算力资源。

LongLoRA 大语言模型
寒武纪提升产品在AIGC及大语言模型领域的性能并推动技术合作

目前，人工智能芯片技术仍处于发展的初期阶段，技术迭代速度加快，技术发展路径尚在探索中，尚未形成具有绝对优势的架构和系统生态。随着越来越多的厂商推出人工智能芯片产品，该领域市场竞争日趋激烈。寒武纪自成立以来一直专注于人工智能芯片设计领域，积累了较强的技术和研发优势，已获得一批核心技术与关键专利，技术创新能力得到业界广泛认可，并较早实�
荐「深呼吸」让大模型表现更佳！谷歌DeepMind利用大语言模型生成Prompt，还是AI更懂AI

【新智元导读】谷歌DeepMind提出了一个全新的优化框架OPRO，仅通过自然语言描述就可指导大语言模型逐步改进解决方案，实现各类优化任务。「深呼吸，一步一步地解决这个问题。这项研究首次提出并验证了使用大语言模型进行优化的有效性，为利用LLM进行更广泛优化任务提供了框架和经验，是这个新的研究方向的开拓性工作，具有重要意义。

DeepMind 大语言模型

今日大家都在搜的词：

热文

3 天
7天

小米发布大语言模型MiLM-6B 参数规模64亿

Hugging Face 大语言模型三大优化技术

荐秒懂生成式AI—大语言模型是如何生成内容的？

开源机器学习库vLLM 提升大语言模型推理速度

OpenLM：一个专为中等规模语言模型设计的模型训练库

荐大语言模型迎来重大突破！找到解释神经网络行为方法

多用途大语言模型SynthIA-7B-v1.3：可用于教学、写作等多领域

AI研究人员发现了主要大语言模型中关键漏洞可低成本复制

LongLoRA：超长上下文，大语言模型高效微调方法

寒武纪提升产品在AIGC及大语言模型领域的性能并推动技术合作

荐「深呼吸」让大模型表现更佳！谷歌DeepMind利用大语言模型生成Prompt，还是AI更懂AI

今日大家都在搜的词：

热文

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音

李国庆婚礼收到11万余元善款受助学生寄来祝福

REDMI Note 15标准版发布：售价999元起

魅族22延期上热搜：将于9月中上旬发布

小米MIX Flip 2钻石限定版发布：售价6999元

荣耀Magic V Flip2发布：售价5499元起

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测

黑神话官号更名系列游戏将开启宏大篇章

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发

站长商机