首页 > 热点 > 关键词  > Yi-9B模型最新资讯  > 正文

零一万物开源 Yi-9B 模型 代码数学综合能力全面增强

2024-03-07 09:23 · 稿源:站长之家

站长之家(ChinaZ.com)3月7日 消息:零一万物团队发布并开源了 Yi-9B 模型,这是零一万物 Yi 系列模型中的 “理科状元”,在代码和数学能力方面表现最佳,并且具有强大的中文能力。该模型的优势包括:

1. 代码和数学能力出色,综合实力强劲。在综合能力方面,Yi-9B 超越了其他相近尺寸的开源模型,如 DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B 和 Gemma-7B。

2. 消费级显卡可用,使用成本友好。Yi-9B(BF16)和量化版 Yi-9B(Int8)都可以在消费级显卡上轻松部署,成本较低。

3. 模型具有中文和英文能力,且性能良好。Yi-9B 在中文和英文能力方面表现出色,是一款全面综合能力强的模型。

微信截图_20240307092409.png

Yi-9B 模型的训练经历了多阶段增量训练,并且采用了模型深度扩增的方式来提升性能。团队在训练过程中增加了模型大小,并采取了固定学习率和逐步增加 batch size 的策略,以提高模型的训练效果。此外,团队还分析了模型结构和训练过程的趋势,通过量化累积整体模型输入 / 输出 cosine 距离的指标来观察模型性能的变化。

总的来说,Yi-9B 模型在代码、数学和中文能力方面表现出色,是一款全面综合能力强大的模型,可在消费级显卡上部署,并且具有较低的使用成本。

项目地址:https://github.com/01-ai/Yi

举报

  • 相关推荐
  • 零一万物联合开源中国推出OAK平台,目标打造Agent世界的“生态适配器”

    在GOT C 2025全球开源技术峰会上,零一万物CEO李开复博士发表演讲,强调开源模型是构建AI Agent的最佳选择。零一万物与开源中国联合发布一站式AI Agent开源开发平台OAK,支持对接多种开源大模型,旨在打破生态绑定限制,助力开发者实现“Agent开发自由”。该平台具备可视化编排、评估优化、数据管理等功能,未来将逐步推出四大核心模块,推动开放协作的AI Agent生态发展。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • 寒武纪:构建大模型开发到部署的全流程开放服务能力

    华鑫证券研报显示,寒武纪2025年上半年业绩亮眼,营收28.81亿元,同比增长4347.82%;归母净利润10.38亿元,增长295.82%。公司募资39.85亿元,重点投向大模型芯片及软件平台建设,以增强AI算力芯片综合实力。凭借云边端一体、软硬协同等技术优势,其产品已获多领域客户认可,覆盖金融、互联网等行业。未来随着技术迭代与生态完善,业绩有望持续提升。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 从消费级到企业级:中国存储企业江波龙的存储升级之路

    全球半导体存储市场正经历AI算力爆发与周期性复苏的双重变革。中国存储企业江波龙凭借技术创新,率先推出LPCAMM2和SOCAMM2内存模块,实现容量密度提升50%、功耗降低30%,切入超薄笔记本和AI服务器市场。其产品适配国产CPU,构建“自研主控+封测制造+全球品牌”生态壁垒,并进军智能汽车等边缘计算领域,以技术突破推动中国存储产业从消费级向企业级跨越,重塑全球竞争格局。

  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • 孩子们满嘴“包的”“666”该怎么办 教师:会限制学生表达能力

    ​近日,“包的”“666”等网络热梗在小学生群体中广泛传播,成为校园新潮流。江西一位小学教师的课堂引导视频引发社会热议,视频中该教师针对学生频繁使用网络用语的现象,提出应培养更文明、优美的表达方式。 据观察,不少小学生将“包的”“666”挂在嘴边,甚至融

  • 活字格通过信通院智能体专项测试,以All-in-One能力加速企业AI落地

    葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试,成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构,覆盖数据管理、模型接入、插件开发等八大能力域,具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平,可为企业提供低门槛智能体落地解决方案,已在制造、政务、医疗等领域深度应用,助力企业数字化转型。

  • 玄武云通过DCMM三级认证 数据管理能力获国家级权威认可

    玄武云科技(02392.HK)近日通过国家数据管理能力成熟度(DCMM)稳健级(三级)认证。该认证依据国家标准GB/T36073-2018,标志着公司在数据战略、治理、安全、质量等八大能力域达到国家权威标准。公司建立了覆盖数据标准管理、安全管理、质量管理的完整体系,将数据管理融入产品研发与业务流程,为云通信与AI业务发展奠定坚实基础。未来将持续深化数据能力建设,探索数据要素创新应用,助力行业数字化转型。

  • 2025 年会议系统厂商推荐 五大品牌核心能力对比

    随着混合办公普及,会议系统已从辅助工具升级为核心协作载体。2024年全球会议市场规模达386亿美元,预计2025年将以12.3%年复合增长率持续扩张。本文聚焦华为、腾讯、淳中、易联、公信五大主流厂商,从功能覆盖、性能表现、安全性等维度展开分析:华为云WeLink以4K超清视频、千人并发能力见长,适合大型组织;腾讯会议侧重易用性与低成本,契合中小企业需求;淳中主打硬件集成与可视化管控;易联深耕医疗、教育行业定制化方案;公信专注无纸化会议及政务合规场景。未来行业将向AI深度集成、硬件智能化及跨行业适配方向发展,企业需结合自身规模与核心需求精准选型。

今日大家都在搜的词: