首页 > 热点 > 关键词  > 正文

通义千问团队开源首个千亿参数模型Qwen1.5-110B

2024-04-28 08:28 · 稿源:站长之家

站长之家(ChinaZ.com)4月28日 消息:通义千问团队开源的首个千亿参数模型,Qwen1.5-110B。该模型在基础能力和 Chat 评估中表现出色,与其他同类模型相比有显著提升。Qwen1.5-110B 采用了 Transformer 解码器架构,支持多种语言,并且具有高效的分组查询注意力机制。在 Chat 评估中,该模型相较于之前的版本表现更好,显示了更大规模模型的潜力。

微信截图_20240428082933.png

110B 模型的性能提升主要来自于增加的模型规模,而训练方法并未大幅改变。然而,尽管未改变训练方法,模型规模的增加依然带来了更好的 Chat 模型效果,这表明模型规模的扩展在提升性能方面具有重要意义。

Qwen1.5-110B 是通义千问系列中规模最大的模型,也是首个拥有超过1000亿参数的模型。它在与最近发布的 SOTA 模型的性能比较中表现出色,显示出在模型大小扩展方面仍有很大的提升空间。

未来,团队将继续探索模型规模提升和扩展预训练数据规模两种方法带来的优势。

模型链接:

Qwen1.5-110B-Chat:

https://www.modelscope.cn/models/qwen/Qwen1.5-110B-Chat

Qwen1.5-110B:

https://www.modelscope.cn/models/qwen/Qwen1.5-110B

举报

  • 相关推荐
  • 3岁半宝宝110厘米58斤入学超显眼 体型像开了特效

    ​近日,在安徽阜阳的一所幼儿园里,入学第一天便出现了一幕令人忍俊不禁的场景:一名三岁半的宝宝以110厘米的身高和58斤的体重,在同学中显得格外“显眼”,仿佛单独开启了放大特效,与小班同学们形成了最萌的身高差。 据孩子的母亲苏女士介绍,虽然孩子的身高和体重都超出了同龄宝宝的平均水平,但经过体检,各方面指标均显示正常。苏女士表示,她一直在注意控

  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • AI日报:腾讯开源3D世界模型HunyuanWorld-Voyager;即梦AI系列模型开放API;通义推智能体开发框架AgentScope 1.0

    本文介绍了AI日报栏目,聚焦人工智能领域最新动态。主要内容包括:腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能,以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

  • TOP3唯一份额正增!海尔净省电空调单品破110万套

    今夏全国多地持续高温叠加家电以旧换新补贴政策,推动空调市场迎来销售热潮。数据显示,线上销售额同比飙升50%,线下增长16%,创近三年同期最高增速。美的、格力、海尔三巨头稳居前三,市场格局稳定。受高温影响,节能成为用户选购核心考量,一级能效空调销量同比增长82%,市场占比高达92%。海尔净省电系列APF值达6.12,远超国家一级能效标准,搭载AI省电模式,通过智能算法实现越用越省电,快速制冷应对高温,今年累计销量超110万套,成为行业爆款。奥维云网数据显示,7月空调市场份额美的29%、格力17%、海尔15%,海尔逆势增长4%,成为TOP3中唯一正增长品牌。

  • AI日报:字节OmniHuman-1.5发布;PixVerse V5模型上线;​腾讯开源智能体框架Youtu-agent

    本期AI日报聚焦多项技术突破:字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频;爱诗科技PixVerse V5全球上线支持多场景创作;腾讯开源Youtu-agent框架提升AI开发效率;百度智能云发布百舸AI计算平台5.0;OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现,展现人工智能领域快速发展的技术迭代与生态建设。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 男子恶意拨打110六百多次被判刑 法院:构成扰乱秩序罪

    ​近日,广州白云法院审理并宣判了一起因恶意拨打“110”报警电话而被判刑的案件,被告人蔡某因犯扰乱国家机关工作秩序罪,被判处有期徒刑十个月,判决现已生效。 据悉,2024年2月,蔡某使用电话号码A连续拨打110报警电话达99次,随后被公安机关刑事拘留,同年转为取保候审。然而,取保候审期间,蔡某并未收敛,于2024年5月使用电话号码B再次连续拨打110报警电话272次;

  • 如何精准计算AI大模型调用成本?复杂参数太多,预算总超支怎么办?

    文章探讨了AI模型调用成本管理的痛点,包括GPT-4等模型复杂的计费规则(如Token分级、上下文溢价、多模态叠加收费)导致实际成本常超预算40%。提出AIbase计算器三步解决方案:自动匹配场景参数、实时联动报价、明细成本拆解。通过跨境电商客服和高校实验室案例验证工具有效性,强调数据溯源、用量预警和预算缓冲功能,帮助开发者实现精准成本控制,告别手动制表与定�

  • 业界首个!腾讯混元Voyager3D世界模型发布:支持原生3D重建

    今日,腾讯混元官方宣布,HunyuanWorld-Voyager(简称混元Voyager)正式发布,这是业界首个支持原生3D重建的超长漫游世界模型。 该模型在斯坦福大学李飞飞团队发布的世界模型基准测试WorldScore上位居综合能力首位,超越现有开源方法,在视频生成和3D重建任务中均表现出色。 在视频生成和视频3D重建两个任务上,Voyager也均取得更好的结果。

今日大家都在搜的词: