首页 > 业界 > 关键词  > MobiLlama最新资讯  > 正文

开源小型语言模型MobiLlama 手机可运行训练

2024-02-28 10:53 · 稿源:站长之家

站长之家(ChinaZ.com) 2月28日 消息:MobiLlama是一个开源的小型语言模型,专门针对移动设备运行训练的LLM,拥有5亿个参数。该模型的设计旨在满足资源设定计算的需求,同时注重在提高性能的同时降低资源消耗。

image.png

项目地址:https://top.aibase.com/tool/mobillama

MobiLlama是从一个更大的模型出发设计的,通过提出的训练设计的参数共享机制来降低预配置和部署的成本。这项工作的目标不仅是填补小型开源语言模型的空白,还要确保全面透明。这包括提供完整的训练数据流程、训练代码、模型权限重以及超过300个检查点。

想要体验MobiLlama,用户可以按照操作系统的指示下载预处理的Amber数据,并从源码安装。对于训练和微调,建议用户通过源码安装,以利用MobiLlama在20个A10080GB GPU节点上的性能。

这个0.5B大小的开源模型为移动设备提供了一个精确且完全透明的选择。如果用户需要一个小型语言模型来运行在资源中受在有限的环境中,MobiLlama 可能是一个非常有用的选择。

举报

  • 相关推荐
  • 采用Corning® Gorilla® Glass Ceramic 2玻璃陶瓷 三星Galaxy S25 Edge带来超强耐用性体验

    三星电子与康宁公司宣布,即将推出的Galaxy S25 Edge将采用全新Corning® Gorilla® Glass Ceramic2玻璃陶瓷材料。这款创新材料在超薄机身设计中提供突破性防护性能,兼具时尚外观与坚固耐用特性。通过将康宁前沿玻璃科技与三星精密加工工艺相结合,该材料显著提升了屏幕盖板的抗裂能力和耐久性,同时保持高透光率。双方表示,此次合作延续了"以工程创新为本"和"以用户体验为核心"的共同理念,为高端智能手机带来更卓越的产品体验。

  • 中国智力持续发力,智象未来开源模型再获国际认可

    国内AI企业智象未来研发的开源图像生成模型HiDream-I1近日取得重要突破:该模型凭借17B参数规模,在图像真实感、细节处理及指令响应能力上超越行业标杆,多项评测指标超过GPT-4o与Flux1.1。继登顶AI基准测试平台Artificial Analysis、获Hugging Face收录后,该模型正式被谷歌技术生态体系收录,成为首个登顶该平台榜首的中国自研开源模型。其24小时内登顶的纪录,被视为中国AI技术全球竞争力的重要里程碑。谷歌的收录将推动HiDream-I1触达全球开发者,助力开源生态共建进入新发展阶段。

  • 生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界

    世界模型的进度条,最近坐上了火箭。 去年11月,两家创业公司打造的 Oasis,首次在开源世界模型中实现了实时、可玩、可交互。生成的虚拟环境不仅包含画面,也体现出了对物理和游戏规则的理解。

  • 下一代Xbox或将运行Windows系统,支持Steam与完整的向下兼容

    微软正在积极模糊主机与 PC 的界限。在“软硬件一体”与“开放平台”之间,微软似乎正在走出一条“融合之路”,而下一代 Xbox,或许将成为这条道路的真正起点……

  • 李想:理想VLA司机大模型 就是从动物进化到人类

    预训练相当于人类学习物理世界和交通领域的常识,通过大量高清2D和3D Vision(视觉)数据、交通相关的Language(语言)语料,以及与物理世界相关的VL(Vision-Language,视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。

  • DeepSeek上新!开源发布DeepSeek-Prover-V2-671B模型

    快科技4月30日消息,今日,DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍,DeepSeek-Prover-V2-671B 其参数量达到6710亿,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多种计算精度,方便模型更快、更省资源地训练和部署。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提

  • 阿里千问3登顶全球最强开源模型 已在通义App上线

    阿里集团推出新一代开源AI模型"通义千问3"(Qwen3),包含8款不同规格的混合推理模型。旗舰型号Qwen3-235B采用混合专家架构,创下国产模型性能新纪录;Qwen3-32B则以部署成本低、运行稳定见长。该系列在逻辑推理、编程、翻译等专业领域表现卓越,用户可通过通义App和网页版体验。升级后的通义App整合问答对话、图像理解与生成等多项功能,持续强化代码生成、数学解题等专业场景应用能力,致力于打造实用性强的个人AI助手。

  • 秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

    Kimi-Audio是一款开源的通用音频基础模型,在语音识别、音频理解、音频转文本、语音对话等任务中表现优异。该模型采用集成式架构设计,包含音频分词器、音频大模型和音频去分词器三大核心组件,支持多模态输入处理。在十余项音频基准测试中,Kimi-Audio均取得领先性能,如LibriSpeech ASR测试WER仅1.28%,VocalSound测试达94.85%。模型使用1300万小时多语言音频数据进行预训练,并构建了自动处理流水线生成高质量训练数据。评估结果显示,Kimi-Audio在语音识别、音乐理解、语音情感分析等任务上全面超越同类模型,在OpenAudioBench和VoiceBench对话测试中也表现最佳。目前模型代码、检查点和评估工具包已在GitHub开源。

  • 字节AI加速文生图技术新突破,GOOG/微美全息引领开源大模型释放科技势能

    字节跳动发布豆包1.5深度思考模型,升级文生图能力。该模型在专业领域和通用任务中表现突出,采用MoE架构,总参数量200B,激活参数20B,推理成本优势显著。同时,其图像生成模型Seedream 3.0性能追平GPT-4o等顶尖模型。全球AI产业加速发展,开源模型降低技术门槛,推动商业化落地。微美全息等企业构建开放AI生态,DeepSeek等公司通过开源策略促进技术普惠。行业迎来"开源AI+"新阶段,企业需把握机遇应对挑战。

  • AI日报:阿里通义千问Qwen3问鼎全球开源模型;Kimi长思考模型API发布;OpenAI发布新一代GPT-4.1模型

    【AI日报】汇总了近期AI领域重要动态:1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首,在指令遵循和推理能力上超越闭源模型;2)月之暗面推出Kimi长思考模型API,可解决复杂代码和数学问题;3)OpenAI发布GPT-4.1模型,性能提升显著;4)Google推出Gemini2.5Pro模型,提升开发者编码能力;5)联想发布"天禧超级智能体",具备多模态感知能力;6)腾讯元宝上线"对话分