首页 > 热点 > 关键词  > 正文

元象开源多语言大模型XVERSE-13B 可免费商用

2023-08-07 09:18 · 稿源:站长之家

站长之家(ChinaZ.com) 8月7日 消息:元象XVERSE公司宣布开源其百亿参数的高性能通用大模型XVERSE-13B,可免费商用。

据介绍,XVERSE-13B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),基于它生成的服务包括了文本生成、自动化写作、数据分析、知识问答等方面。

微信截图_20230807091704.jpg

主要特点如下:

模型结构:XVERSE-13B 使用主流 Decoder-only 的标准 Transformer 网络结构,支持8K 的上下文长度(Context Length),为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。

训练数据:构建了1.4万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等40多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果。

分词:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为100,278的分词器,能够同时支持多语言,而无需额外扩展词表。

训练框架:经过对算子、通信、并行策略及调度等的优化,千卡集群上的峰值算力利用率达到58.5%,达到业界前列。

项目地址:https://github.com/xverse-ai/XVERSE-13B

举报

  • 相关推荐
  • 提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • DeepSeek上新!开源发布DeepSeek-Prover-V2-671B模型

    快科技4月30日消息,今日,DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍,DeepSeek-Prover-V2-671B 其参数量达到6710亿,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多种计算精度,方便模型更快、更省资源地训练和部署。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提

  • 字节AI加速文生图技术新突破,GOOG/微美全息引领开源大模型释放科技势能

    字节跳动发布豆包1.5深度思考模型,升级文生图能力。该模型在专业领域和通用任务中表现突出,采用MoE架构,总参数量200B,激活参数20B,推理成本优势显著。同时,其图像生成模型Seedream 3.0性能追平GPT-4o等顶尖模型。全球AI产业加速发展,开源模型降低技术门槛,推动商业化落地。微美全息等企业构建开放AI生态,DeepSeek等公司通过开源策略促进技术普惠。行业迎来"开源AI+"新阶段,企业需把握机遇应对挑战。

  • DeepSeek领航大模型普惠化浪潮,xAI/微美全息加速开源AI布局打造新格局

    DeepSeek 作为当前最受关注的大模型之一,凭借其技术创新正在加速 AI 普惠化进程。根据机构新报告显示,DeepSeek已经成为全球增长最快的AI工具,其每月新增网站访问量已经超过OpenAI的ChatGPT。DeepSeek市场份额全球第三目前,DeepSeek市场份额6.58%,仅次于ChatGPT和Canva。DeepSeek是继ChatGPT之后的又一现象级AI产品,它的市场份额从2.34%快速增长至6.58%,展现出强劲的增长态势。全球著名�

  • 合合信息发布“大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • 奔驰新款CLA接入豆包大模型

    4月22日,奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构,接入火山引擎大模型,支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈,交互效率提升50%,唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型,结合生成式AI和大数据技术,为中国用户打造更智能的用车体验。

  • 迅雷一键即可完成大模型下载

    近日,迅雷为提升用户使用体验,让用户能够更快更好地批量下载大模型所有文件,已针对大模型下载场景进行了优化,并上线了新版本插件,下载迅雷客户端且在浏览器安装迅雷插件即可使用。值得一提的是,在使用迅雷该插件功能创建任务时,将同时创建相对应的文件夹,下载完成后,所有文件都将在一个文件夹中,相比传统浏览器——需要用户逐个手动点击下载图标并�

  • 九为健康联合华为云发布神农中医大模型智能体,解码如何用大模型重构“望闻问切”

    2025 年 4 月 11 日,在华为云生态大会上,浙江九为健康科技股份有限公司(以下简称"九为健康")正式发布基于华为云盘古大模型的"九为神农中医大模型智能体"。该解决方案依托AI技术,系统性攻克中医药研发周期长、作用机制解析困难、个性化方案制定复杂等产业难题,通过智能化手段推动中医药现代化进程,为医药全产业链提供覆盖研发、诊疗及健康管理的全流程智能服�

  • OPENVERSE获重磅资本加持,元宇宙赛道再添生力军

    我们正处于互联网范式转变的关键阶段:从中心化的平台驱动(Web 2),迈向去中心化的用户主权网络(Web3)。在Web3 体系下,数据与内容的所有权回归用户本人,价值创造与价值流通基于协议自动执行,平台不再是控制者,而是服务型工具。这意味着,下一代互联网不再依赖于少数平台巨头,而是建立在公开透明、用户可验证、自治协作的价值网络之上。OPENVERSE作为新一代 We

  • 大模型时代的智能营销,从“玩具”到“工具箱”

    百度在Create大会上强调AI应用创造真正价值,发布智能营销一体化应用"客悦·ONE"。李彦宏指出,没有应用场景的芯片和模型毫无价值。百度智能云升级后整合文心、DeepSeek等大模型能力,实现从数据洞察到智慧触达的闭环营销体系。该产品在金融等行业已落地见效,自助解决率达93%以上,支持多模态交互和全渠道管理。百度通过全栈自研AI架构降低开发成本,推动行业智能化转型。