首页 > 热点 > 关键词  > 正文

元象XVERSE开源650亿参数通用大模型XVERSE-65B

2023-11-06 10:17 · 稿源:站长之家

站长之家(ChinaZ.com) 11月6日 消息:元象XVERSE宣布 开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。

XVERSE-65B 是由深圳元象科技开发的一种支持多语言的大型语言模型。它采用了 Transformer 网络结构,参数规模达到了650亿。

模型通过训练了2.6万亿个令牌的高质量多样化数据,包含了40多种语言。XVERSE-65B 具有16K 的上下文长度,适用于多轮对话、知识问答和摘要等任务。模型已在多个标准数据集上进行了测试,并取得了良好的性能。

微信截图_20231106101724.png

主要特点如下:

模型结构:XVERSE-65B 使用主流 Decoder-only 的标准 Transformer 网络结构,支持16K 的上下文长度(Context Length),能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。

训练数据:构建了2.6万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等40多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果。

分词:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为100,534的分词器,能够同时支持多语言,而无需额外扩展词表。

训练框架:自主研发多项关键技术,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等,让训练效率更高,模型稳定性强,在千卡集群上的峰值算力利用率位居业界前列。

项目地址:https://github.com/xverse-ai/XVERSE-65B

举报

  • 相关推荐
  • MCP的基本组成部分有哪些?MCP Servers服务器起到什么作用?

    在AI技术不断发展的今天,如何高效地实现AI模型与外部资源的交互成为了一个关键问题。MCP作为一种创新的解决方案,为AI应用的开发和部署提供了全新的思路。随着MCP技术的不断发展和应用,我们有理由相信,它将在未来的AI领域发挥越来越重要的作用。

  • OPENVERSE获重磅资本加持,元宇宙赛道再添生力军

    我们正处于互联网范式转变的关键阶段:从中心化的平台驱动(Web 2),迈向去中心化的用户主权网络(Web3)。在Web3 体系下,数据与内容的所有权回归用户本人,价值创造与价值流通基于协议自动执行,平台不再是控制者,而是服务型工具。这意味着,下一代互联网不再依赖于少数平台巨头,而是建立在公开透明、用户可验证、自治协作的价值网络之上。OPENVERSE作为新一代 We

  • DeepSeek上新!开源发布DeepSeek-Prover-V2-671B模型

    快科技4月30日消息,今日,DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍,DeepSeek-Prover-V2-671B 其参数量达到6710亿,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多种计算精度,方便模型更快、更省资源地训练和部署。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提

  • 刚刚,商汤发布第六代大模型6000亿参数多模态MoE,中长视频直接可推理

    现在的国产AI应用,一口气看好几分钟的视频,都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段,AI就摇身一变成“名侦探”做剖析:它会对整个视频的内容先做一个总结,再按照秒级,对视频片段做内容上的推演。商汤科技联合创始人杨帆认为:银河通用合伙人、大模型负责人张直政表示:除此之外,上海交通大学副教授闫维新对这个问题的看法是:总言之,商汤作为国�

  • 2025年度总票房破250亿 《哪吒2》独占150亿

    据灯塔专业版数据,截至今日17时38分,2025年度电影大盘票房成功突破了250亿大关。《哪吒之魔童闹海》以势如破竹之势,独占了超过151.88亿的票房,占据了总票房60.8%的惊人比例,断层领跑整个市场。

  • 男子喝热水养生20年查出舌癌 医生:65℃以上的水为致癌物

    郑州张先生因长期饮用65℃以上热水20年,导致舌癌。世界卫生组织将65℃以上热饮列为2A类致癌物。口腔黏膜适宜37℃左右,高温会立即灼伤黏膜,长期反复损伤会增加癌变风险。食道对热刺激不敏感,患者往往到吞咽困难时才就医,此时多已到中晚期。专家建议:热饮热食要晾凉再入口,小口慢饮,避免贪图一时口快而损害健康。

  • 微软电脑管家推送自家Microsoft 365广告:还没法关闭!

    快科技5月1日消息,微软电脑管家在最新的更新中加入了对自家Microsoft 365的推广内容。微软电脑管家主要功能包括清理内存、提升性能和清理存储空间等,但如今这款工具却成为了微软推广自家服务的渠道之一电脑管家中的广告以提示”的形式出现,推广Microsoft 365的移动版本,点击后就会访问Windows 11中的Microsoft 365网页。最糟糕的是,直接广告嵌入在应用程序的界面中,还关不了。这并非微软电脑管家首次被用于推广微软的其他服务,此前,该应用曾被曝出推广必应作为默认搜索引擎,还以修复提示”的形式出现。微软近年来在推广自家服务?

  • 荣耀手环10发布:支持心脏健康守护 国补194.65元起

    荣耀手环10发布,提供标准版和NFC版两种款式,四色可选。配备1.57英寸AMOLED屏,重22.1克,支持快速更换表带。主打心脏健康监测功能,可识别房颤等异常情况,并提供健康晨报。支持96种运动模式记录,内置180mAh电池,最长续航14天。NFC版支持公交、门禁等功能。标准版补贴后194.65元,NFC版228.65元。

  • 提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • 股价暴跌!苹果市值一度蒸发2550亿美元

    快科技4月3日消息,据媒体报道,苹果股价一度下跌8.5%,市值蒸发2550亿美元。据了解,在关税政策公布后,美股科技股盘后遭受重挫,苹果、特斯拉、亚马逊、英伟达、微软、谷歌、脸书等巨头全部下跌,这些巨头市值一共蒸发逾7000亿美元。业内人士表示,当前全球关税处于高压态势,这使得苹果等手机品牌的采购产业链面临困境,给苹果带来了巨大挑战,当前苹果所有产品几乎都在海外生产,这让该公司在新关税政策下显得格外脆弱。截至目前,在苹果分布于全球的200家主要供应商中,有超过80%在中国设有工厂,苹果CEO库克等公司高管在访问中国时?