首页 > AI头条  > 正文

号称最先进小型语言模型Zamba2-7B发布 性能超越Gemma-7B

2024-10-15 11:00 · 来源: AIbase基地

最近,Zyphra 正式推出了 Zamba2-7B,这是一款具有前所未有性能的小型语言模型,参数数量达到7B。

image.png

这款模型号称在质量和速度上超越了目前的竞争对手,包括 Mistral-7B、谷歌的 Gemma-7B 以及 Meta 的 Llama3-8B。

image.png

Zamba2-7B 的设计目标是满足那些需要强大语言处理能力但又受限于硬件条件的环境,比如在设备上处理或使用消费级 GPU。通过提高效率而不牺牲质量,Zyphra 希望能让更广泛的用户,无论是企业还是个人开发者,都能享受到先进 AI 的便利。

Zamba2-7B 在架构上做了很多创新,提升了模型的效率和表达能力。与前一代模型 Zamba1不同,Zamba2-7B 采用了两个共享注意力块,这种设计能更好地处理信息流和序列之间的依赖关系。

Mamba2块构成了整个架构的核心,这使得模型的参数利用率相比传统的变换器模型更高。此外,Zyphra 还在共享的 MLP 块上使用了低秩适应(LoRA)投影,这进一步提高了每一层的适应性,同时保持了模型的紧凑性。得益于这些创新,Zamba2-7B 的首次响应时间减少了25%,每秒处理的 token 数量提升了20%。

Zamba2-7B 的高效和适应性得到了严格测试的验证。该模型在一个包含三万亿 token 的海量数据集上进行预训练,这些数据集都是高质量和经过严格筛选的开放数据。

此外,Zyphra 还引入了一种 “退火” 预训练阶段,快速降低学习率,以便更有效地处理高质量 token。这种策略让 Zamba2-7B 在基准测试中表现出色,在推理速度和质量上都超越了竞争对手,适合处理自然语言理解和生成等任务,而不需要传统高质量模型所需的巨量计算资源。

amba2-7B 代表了小型语言模型的一个重大进步,它在保持高质量和高性能的同时,还特别注重了可访问性。Zyphra 通过创新的架构设计和高效的训练技术,成功打造出一款不仅便于使用,同时又能满足各种自然语言处理需求的模型。Zamba2-7B 的开源发布,邀请研究人员、开发者和企业探索其潜力,有望在更广泛的社区中推进高级自然语言处理的发展。

项目入口:https://www.zyphra.com/post/zamba2-7b

https://github.com/Zyphra/transformers_zamba2

划重点:

🌟 Zamba2-7B 是 Zyphra 推出的一款新型小型语言模型,参数达到7B,性能超越多个竞争对手。  

⚙️ 采用创新的架构和 LoRA 技术,使得模型在效率和适应性上都有显著提升。  

📊 经过严格测试,Zamba2-7B 在自然语言处理任务中展现了优越的速度和质量表现。  

  • 相关推荐
  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 王宁掏出迷你版LABUBU

    “这周就要发布Mini版LABUBU,以前可能大家是挂在包上,可能从下周开始,大家甚至可以挂在手机上,它的使用场景会更多,相信它会是一个超级受欢迎的爆款。” 8月20日,在泡泡玛特2025年中期业绩发布会上,泡泡玛特董事长兼CEO王宁化身“带货博主”,从胸前西装口袋中拿出了一个Mini版LABUBU介绍道。 这款即将登场的 Mini 版 LABUBU 仅有掌心大小,延续了LABUBU标志性的搪胶毛�

  • 跨境电商B2B出海新蓝海:规模扩张下千匠方案解锁增长密码

    《中国跨境电商B2B出口发展报告(2025)》显示,全球B2B跨境电商市场迎来结构性扩张黄金期。中国B2B出口增速将持续超越传统外贸,预计2025年规模达6.9万亿元。政策支持、技术赋能、需求红利叠加推动市场发展,工具设备、纺织品类占主导,新兴市场增长强劲。人工智能等技术深度融合加速产业数字化,企业数字化进程提速,未来将向品牌竞争与全产业链降本增效转型。

  • 赛道超越小米SU7 Max!全新纯电轿跑小鹏P7上市:21.98万起

    刚刚,全新一代小鹏P7上市,共推出款4车型,售价区间21.98-30.18万元,同时官方还公布了上市权益,可戳图了解。 该车采用了赛博未来感十足的设计,车头配备一体式无断点的光翼贯穿日行灯、矩阵式LED大灯,且拥有纯平发光Logo,而在不发光时,车标为深色,相较于业界常见的白色更具精致感。 全新P7依旧定位纯电轿跑车,新车长宽高分别为5017/1970/1427mm,轴距为3008mm,定位�

  • 罗永浩官宣明日将公布TBT项目 号称九年磨一面

    今日,罗永浩在微博上发布重磅消息,宣称“TBT终于要上了!”他感慨道,九年来赛道虽变,但自己一直特别想给新赛道带来不一样的创新,还表示要“重构你对泡面的想象,明天见”,引发网友广泛关注与猜测。

  • 华为千元内最好的降噪耳机!华为FreeBuds 7i来了:接入鸿蒙智能体

    华为FreeBuds 7i即将登场,预计8月28日预售,9月4日首销。 官方宣传图称其为华为千元内最好的降噪耳机”,支持新一代智慧动态降噪,全频段平均降噪深度28dB。 支持90dB噪声下,消除环境背景音,精准拾取人声。 耳机采用11mm四磁铁动圈单元,支持头部跟踪空间音频,带来声临其境的体验。 关闭降噪最长使用时间为35小时,支持快充,充电10分钟就能听歌4小时。

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • 泡泡玛特不止一个LABUBU

    不可否认,在本周举办的泡泡玛特中期业绩发布会上,LABUBU依然是最引人瞩目的话题中心。THE MONSTERS系列2025H1收入达到48.1亿元,同比增长668%,新品MINI LABUBU即将发售的消息也在海内外社媒引发巨大反响。 尽管位列所有IP第一,THE MONSTERS系列在总收入中的占比也刚刚接近35%。2025年H1,泡泡玛特自有IP中有5个收入超10亿,收入过亿的IP更是达到13个,这其中有MOLLY这样历经十数年的�

  • 泡泡玛特王宁:本周将发布迷你版LABUBU

    昨日,泡泡玛特公布了其2025年中期业绩报告,数据显示,报告期内公司收益高达138.76亿元,与去年同期相比增长了204.4%,业绩表现十分亮眼。 在今日举行的泡泡玛特2025年中期业绩会上,创始人兼CEO王宁对公司未来发展充满信心。他透露,原本公司希望今年营收能够达到200亿,但就目前情况来看,实现300亿的营收目标也颇为轻松。

今日大家都在搜的词: