首页 > 业界 > 关键词  > XGen-7B最新资讯  > 正文

Salesforce新AI模型可改善数据分析 XGen-7B基准测试超越Meta的LLaMA-7B

2023-07-04 10:24 · 稿源:站长之家

站长之家(ChinaZ.com)7月4日 消息:随着对AI工具的需求增加,对能够完成更多任务的系统的需求也越来越大。

企业可以通过拥有像ChatGPT或Bard这样的聊天界面来受益,这些界面能够对冗长的文件进行摘要或筛选客户数据以获取见解。但要执行这些任务,模型需要经过大量数据的训练。而企业通常选择了更小、更具成本效益的模型,问题在于这些模型无法很好地处理这些任务。

像Meta的LLaMA、Falcon-7B和MPT-7B等开源模型,其最大序列长度约为2,000个token,使得它们难以处理像文件这样的冗长非结构化数据。

这也是Salesforce推出的一系列大型语言模型XGen-7B的原因,XGen-7B在长达8,000个token的序列上进行训练,因此更容易处理冗长的文档输入,总共可处理1.5万亿个token。

Salesforce的研究人员使用Salesforce内部的库JaxFormer以及公共领域的教学数据对这一系列70亿参数的模型进行训练。

与LLaMA、Falcon和Redpajama等开源模型相比,所得到的模型在性能上达到或超过了它们。

Salesforce的AI研究人员表示,使用Google Cloud的TPU-v4云计算平台,在1万亿个token上训练这个模型只需花费15万美元。

XGen-7B基准测试亮眼

Salesforce的模型在一系列基准测试中取得了令人印象深刻的成绩,在许多方面都超过了受欢迎的开源大型语言模型。

在对“Measuring Massive Multitask Language Understanding(MMLU)”基准测试进行测试时,XGen在四个测试类别中有三个类别取得了最高分,而且在加权平均分中也是最高的。只有Meta的LLaMA在人文学科方面的MMLU测试中比XGen得分更高。

image.png

在同一基准测试的零样本测试中,XGen取得了类似的结果,但在人文学科方面仍然不及LLaMA。

就整体零样本测试而言,XGen只在“TruthfulQA”基准测试中超过了其他模型。在包括ARC_ch、Hella Swag和Winogrande在内的基准测试中,Meta的LLaMA取得了更好的结果。

然而,在代码生成任务上,XGen在评估基准测试的pass@1指标上超过了LLaMA和其他模型,得分为14.20,而LLaMA只有10.38。

在长序列任务中,Salesforce的这个新AI模型表现最出色,在SCROLLS基准测试的QMSum和GovReport数据集上得分非常高。

image.png

不过,Salesforce的研究人员指出,由于XGen模型没有在相同的教学数据上进行训练,“它们不是严格可比较的”。

XGen-7B系列

Salesforce的研究人员创建了三个模型——XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-inst。

XGen-7B-4K-base能够处理8000亿个上下文token,它是在2,000个token,后来又是4,000个token上进行训练的。它以Apache-2.0许可发布,这意味着可以根据不同的许可协议分发派生作品,但所有未修改的组件必须使用Apache2.0许可。

image.png

XGen-7B-8K-base在之前提到的模型的基础上增加了3000亿个token,使其总的上下文理解能力达到了1.5万亿个token。这个模型也以Apache2.0许可发布。

XGen-7B-inst在公共领域的教学数据上进行了微调,包括databricks-dolly-15k、oasst1、Baize和与GPT相关的数据集。该模型在4,000个和8,000个token上进行了训练,仅用于研究目的。

为了训练这些模型,Salesforce的研究人员采用了两阶段的训练策略,每个阶段使用不同的数据混合。

团队解释说:“对于C4,我们使用C4流程处理了6个Common Crawl转储,并通过仅保留具有相同URL的文档中的最新时间戳,跨不同的转储去重了文档。我们训练了一个线性模型,将C4数据分类为类似于维基百科的文档和随机文档。然后,我们选择了前20%的类似于维基百科的文档。”

然后,将Salesforce和Hugging Face创建的代码生成模型Starcoder添加到支持代码生成任务。然后将Starcoder的核心数据与前一阶段的数据混合。

然后使用OpenAI的tiktoken对模型的数据进行token化,随后添加了连续空白和制表符的额外token。

虽然XGen的训练过程得到了一系列功能强大的AI模型,但也存在一些缺陷。Salesforce指出,该模型仍然存在幻觉问题。

有关XGen-7B的更多信息,Salesforce在其博客上发布了一篇详细的文章。模型的代码库可以在GitHub上找到,模型的检查点可以在Hugging Face上找到。

上下文至关重要

能够理解更长输入的模型对企业来说可能是一个巨大的优势。

Salesforce的研究人员表示,大量的上下文“使得预训练的语言模型能够查看客户数据并对有用的信息查询做出回应”。

对于聊天机器人应用来说,更多的上下文意味着更多的对话。Salesforce并不是唯一一个研究这一概念的组织。Anthropic是由OpenAI的前员工创办的新兴AI初创公司,最近扩大了其旗舰应用Claude的上下文长度。

Claude现在可以用于从多个冗长的商业文件或书籍中获取信息,用户可以询问有关数据的问题。

目前的模型在增加上下文长度方面存在困难。当ChatGPT和Bing的AI聊天等应用开始出现时,用户发现他们在单个对话中使用模型的时间越长,模型的回应变得越来越不稳定。这是由于模型无法处理较长的上下文长度,导致混淆和产生幻觉。

XGen-7B项目网址:https://blog.salesforceairesearch.com/xgen/

举报

  • 相关推荐
  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • 腾讯云李力:坚持同源同构,为企业打造更贴近Agent的AI原生云

    9月17日,腾讯云在2025全球数字生态大会上宣布智算全面升级,推出“更贴近Agent的AI+Infra”解决方案,包括Agent+Runtime、云专家服务智能体Cloud Mate及全链路安全能力。腾讯云副总裁李力强调,“同源同构”是核心原则,确保产品服务一致性与全球化布局。方案旨在提升模型推理效率、工具集成灵活性和系统稳定性,助力AI从实验室走向生产级应用。腾讯云通过硬件多元支持、软件加速优化及智能运维服务,降低企业技术门槛,已服务国内90%大模型厂商及千行百业。

  • 方洪波迎战雷军,祭出两大Agent

    ​家电三巨头美的、格力和海尔,正面临小米的强力挑战。小米家电连续多个季度狂飙突进,已经让三巨头感到不安。 格力对于小米格外警惕。在小米攻势最凶猛的空调赛道,针对奥维云网7月空调线上市场份额数据,格力与小米各执一词,争执不下。 海尔同样感受到压力:去年7月,小米以12%的全渠道份额,超越海尔跻身前三。到了今年7月,海尔收复失地,市场份额升至15%,

  • 新品|灵动式三维扫描系统NimbleTrack Gen2震撼来袭!

    思看科技9月17日发布新一代NimbleTrack+Gen2智能无线三维扫描系统。该系统采用全无线设计,无需贴点,最高精度达0.025mm,支持120FPS高速扫描,单站最远跟踪距离4.2米。创新融合跟踪式与手持式双模式,可覆盖中小型精密件到大型工业件的全场景测量,助力工业检测向高效化、智能化升级。

  • AI日报:苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Projects功能;Kimi K2-0905 上线 Discord

    本文汇总了AI领域最新动态:苹果与谷歌合作,计划在Siri中引入Gemini AI技术;OpenAI向免费用户开放Projects功能,提升任务管理效率;谷歌推出免费Gemini CLI工具,集成GitHub提升开发效率;OpenAI估值飙升至5000亿美元,二级股票售出103亿美元;苹果自研AI搜索引擎“世界知识问答”计划2026年上线;月之暗面发布Kimi K2-0905模型,提升编程与创意写作能力;Raycast推出Cursor Agent插件优化代码编辑;谷歌发布nano banana官方Prompt模板,助力创意设计。

  • “无人测试”新趋势:2025服贸会公布领先AI测试平台——Testin XAgent

    在数字化浪潮下,软件质量成为企业核心竞争力。传统测试依赖人工,面临效率瓶颈、覆盖局限和技术门槛三大痛点。AI技术正推动测试从自动化向智能化变革。Testin云测发布新一代AI智能测试系统Testin+XAgent,融合大语言模型和智能体技术,实现自然语言驱动测试、高精度视觉识别、全自动API测试和自主探索式测试,重塑测试流程。该系统代表软件测试向“无人测试”升级,助力中国技术出海,彰显AI+测试的全球竞争力。

  • 小米17全球首发高通骁龙8 Elite Gen5:享有独占期

    小米总裁卢伟冰在直播中透露,小米17系列将全球首发高通骁龙8 Elite Gen5芯片,采用台积电3nm工艺,性能大幅提升。安兔兔跑分突破400万分,成为安卓阵营最强芯片。新机共有三款型号,将于本月正式发布。

  • 全球首发骁龙8 Elite Gen5!小米17 Pro首个跑分出炉

    小米旗下一款型号为25098PN5AC”的机型跑分现身Geekbench数据库,博主体验more透露,该机正是小米17 Pro。 小米17系列将全球首发骁龙8 Elite Gen5,超大核主频4.61GHz,这次单核成绩3096,多核9382。

  • 两步生成企业级Agent,华为云Versatile平台打通智能体落地最后一公里

    华为在2025全联接大会上发布企业级智能体平台Versatile,通过极简流程实现企业级Agent开发,仅需输入业务逻辑与流程图即可完成,效率提升10倍。同时公布昇腾芯片未来三年规划,将陆续发布多款高性能芯片。华为云还推出超节点产品Atlas系列,算力全球领先。CloudMatrix384 AI+Token推理服务全面上线,吞吐量达2400TPS,性能远超业界水平。该平台已与多个行业合作,助力企业构建数字化AI产线,实现业务效率飞速提升。

  • 腾讯云联合IDC发布AI Infra报告:定义Gen Al时代智算新范式

    2025年腾讯全球数字生态大会于9月16-17日在深圳召开。在Infra+Agent专场,腾讯云与IDC联合发布《AI+Infra:加速智能体落地的基础架构、发展趋势与产业实践》报告。报告指出,随着AI应用规模化落地,AI云基础设施正向核心智算设施演进,涵盖分布式底座、异构硬件、高性能软件和场景化方案四大维度。报告还提出六大演进趋势:架构重构、行业垂直化、算力智能化、安全能力提升、研发范式创新和服务化转型,并解析了腾讯云在交通、制造、医疗等领域的落地案例,为企业智能化转型提供实践指南。

今日大家都在搜的词: