首页 > 热点 > 关键词  > Yi-9B模型最新资讯  > 正文

零一万物开源 Yi-9B 模型 代码数学综合能力全面增强

2024-03-07 09:23 · 稿源:站长之家

站长之家(ChinaZ.com)3月7日 消息:零一万物团队发布并开源了 Yi-9B 模型,这是零一万物 Yi 系列模型中的 “理科状元”,在代码和数学能力方面表现最佳,并且具有强大的中文能力。该模型的优势包括:

1. 代码和数学能力出色,综合实力强劲。在综合能力方面,Yi-9B 超越了其他相近尺寸的开源模型,如 DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B 和 Gemma-7B。

2. 消费级显卡可用,使用成本友好。Yi-9B(BF16)和量化版 Yi-9B(Int8)都可以在消费级显卡上轻松部署,成本较低。

3. 模型具有中文和英文能力,且性能良好。Yi-9B 在中文和英文能力方面表现出色,是一款全面综合能力强的模型。

微信截图_20240307092409.png

Yi-9B 模型的训练经历了多阶段增量训练,并且采用了模型深度扩增的方式来提升性能。团队在训练过程中增加了模型大小,并采取了固定学习率和逐步增加 batch size 的策略,以提高模型的训练效果。此外,团队还分析了模型结构和训练过程的趋势,通过量化累积整体模型输入 / 输出 cosine 距离的指标来观察模型性能的变化。

总的来说,Yi-9B 模型在代码、数学和中文能力方面表现出色,是一款全面综合能力强大的模型,可在消费级显卡上部署,并且具有较低的使用成本。

项目地址:https://github.com/01-ai/Yi

举报

  • 相关推荐
  • Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

    被寄予厚望的美国Meta公司的最新开源大模型Llama4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。大模型评测平台LMArena亲自下场发文,打脸Meta提供给平台的Llama4是“特供版”。Meta若继续在商业控制与技术开放之间摇摆,恐将在AI竞赛中进一步失去开发者支持。

  • 提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • 理想自研车机系统“星环OS”公布开源代码

    理想汽车4月25日发布"理想星环OS技术白皮书",宣布启动车机操作系统开源计划。该项目将分三个阶段推进:4月23日已开源安全实时操作系统和通信总线模块;6月30日将开放完整智能车控系统及智能驾驶基础能力;7月后计划开源包含虚拟化引擎在内的完整智能驾驶系统。理想采用Apache License V2.0开源协议,已在Gitee平台创建开源组织。李想表示此次开源不设商业壁垒,预计可为汽车行业每年减少100-200亿元重复研发投入,推动行业技术共享与协作创新。

  • 理想自研星环OS正式开源!操作系统代码已开放下载

    理想汽车4月28日宣布自研"星环OS"操作系统正式开源,成为全球首个实现整车级操作系统全面开源的车企。该系统代码已通过Gitee平台开放下载,采用Apache License V2.0开源协议,覆盖智能车控、智能驾驶、通信中间件、信息安全四大核心模块。该系统不同于车载屏幕系统,而是整车全链路操作系统,包括车辆控制等核心功能。研发始于2021年,投入200名研发人员和10亿元人民币。系统采用资源集中与共享架构,支持英飞凌、地平线等主流车规芯片,芯片适配验证时间比传统闭源系统缩短80%。在性能方面,AI算力虚拟化损耗降低80%,传感器访问时延降低90%,存储资源占用减少30%,响应速度比AUTOSAR提升1倍。安全性能方面,120km/h高速状态下AEB刹停距离缩短7米。

  • NVIDIA PhysX物理加速不死!内核源代码终于开源

    PhysX物理加速技术已经不再有NVIDIA官方的支持,但并不意味着这项优秀技术会消失在历史的长河中,因为它完全开源了!其实早在2018年底,NVIDIA就公开了PhysXSDK4.0开发包,根据BSD-3许可协议公开了源代码,但不包括最核心的GPU模拟内核。理论上完全可以将PhysX代码从CUDA平台上,移植到Vulcan、OpenCL,从支持AMD、Intel显卡。

  • 刚刚,AI破解50年未解数学难题!南大校友用OpenAI模型完成首个非平凡数学证明

    【新智元导读】AI辅助人类,完成了首个非平凡研究数学证明,破解了50年未解的数学难题!在南大校友的研究中,这个难题中q=3的情况,由o3-mini-high给出了精确解。就在刚刚,AI完成了首个非平凡研究数学证明!完成这项研究的,是美国纽约布鲁克海文国家实验室凝聚态物理与材料科学分部的一位华人学者Weiguo Yin。论文地址:https://arxiv.org/abs/2503.23758在这项研究中,作者在一维J_1-J

  • LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯

    AI不过周末,硅谷也是如此。Llama家族上新,一群LIama4就这么突然发布了。太平洋这头,已经开始落地应用和智能体了。

  • 专家齐聚西湖论剑 解码数据要素无界发展新路径

    杭州作为"数字经济第一城",正全力打造"中国数谷",构建数据要素流通体系。2023年启动建设以来,已形成"三数一链"框架,落地金融、医疗等6大行业应用,注册数商1944家,交易额突破86.5亿元。2025年将举办"中国数谷·西湖论剑"大会,聚焦"数智无界 安全共生"主题,发布创新实践案例。通过制度创新和技术突破,杭州持续完善数据要素市场化配置改革,推动数字经济高质量发展,打造全球数据要素流通标杆。

  • 不要思考过程,推理模型能力能够更强

    UC伯克利和艾伦实验室的最新研究表明,推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案,跳过了传统推理模型中的显性思考步骤。实验证明,在低资源(低token数量、少模型参数)或低延迟情况下,NoThinking方法的表现优于传统思考方式,能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异,尤其在资源受限时优势更明显。研究还发现,结合并行计算扩展后,NoThinking能进一步提升性能,在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。

  • AI日报:智谱开源32B/9B系列GLM模型并启用Z.ai域名;OpenAI发布GPT-4.1系列模型;阿里魔搭上线MCP广场

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型,并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议,支持商业用途,提升了

热文

  • 3 天
  • 7天