首页 > 业界 > 关键词  > 语言模型最新资讯  > 正文

Headless语言模型:通过捆绑嵌入提高模型的训练速度

2023-09-20 10:50 · 稿源:站长之家

要点:

1. 提出了一种新的预训练方法,称为Headless语言模型,它移除了对词汇空间概率分布的预测需求,而是关注用对比方式重构表示。

2. 该方法只需要改变目标函数,可以直接应用于经典语言模型预训练目标。

3. 在单语和多语编码器以及单语解码器中实验表明,Headless语言模型预训练相比经典方法在给定运算量下表现更好,计算效率更高。

站长之家(ChinaZ.com)9月20日 消息:研究人员发现了一种改进语言模型性能的方法——Headless语言模型,即将输入嵌入与模型的其他嵌入捆绑在一起,并使用对比损失。通常情况下,语言模型的输入和输出嵌入层是分开的,但这种新方法通过捆绑它们,提高了模型的训练速度和准确性。这一创新有望在大规模语言处理任务中取得广泛应用。

Headless语言模型通过移除语言模型预测词汇空间概率分布的需求,改为学习重构输入嵌入的对比方式,提供了一种创新预训练方法。作者提出了一种对比权重绑定损失,可以直接作为经典语言模型的目标函数替代,因此可以轻松集成到已有代码库中。

image.png

论文地址:https://arxiv.org/pdf/2309.08351.pdf

在英文和多语言单向编码器以及英文解码器模型的中等规模预训练实验中发现,在类似运算量下,Headless语言模型相比经典方法有显著提升,下游表现更好,数据效率更高,计算效率也更高。

例如,Headless语言模型在GLUE基准测试上的结果比对应的经典模型高1.6分,在LAMBADA数据集上的准确率提高了2.7分。

此外,训练Headless语言模型可以节省高达20倍的运算量。总的来说,这项工作为以对比学习取代交叉熵作为自监督预训练目标开辟了道路,为语言表示学习提供了一种高效可行的替代方案。

举报

  • 相关推荐
  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 男子用3种语言辱骂乘客 上海地铁回应:可立刻报警

    近日,上海地铁7号线车厢内发生一起恶性不文明事件。 据悉,一名男子冲过来碰撞到邻座乘客贺先生腿部的伤口,在对方提醒后不仅未道歉,反而情绪失控。 该男子使用上海话、英语和普通话三种语言,对贺先生进行持续辱骂,期间还多次喊出乡下人滚出去”等歧视性、侮辱性词汇。

  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • AI大模型计费器如何精准比价?38款模型隐藏费用一键预警,三步告别超支

    文章揭示了AI项目成本失控的三大痛点:1)计费维度分裂,如输入/输出token分开计价;2)参数迷雾,如文心一言4.0增强模式成本是基础版3.2倍;3)汇率陷阱,海外模型美元报价波动导致实际成本偏差超15%。通过AIbase费用计算器可精准测算:支持38个主流API对比,包含隐藏费用提醒,提供四大维度的决策矩阵(百万token成本/长文本溢价/月度总价/性价比评分)。案例显示某团队发现自研模型成本比通义千问高27%后及时调整采购策略。该工具能帮助开发者避免"成本黑箱",实现零成本预算推演。

  • 将AI大模型费用计算器作为战略工具:企业如何规避AI项目的成本陷阱

    AI项目规模化应用面临不可预测的运营成本挑战,尤其是大模型API调用费用难以精准预测,导致项目ROI计算失效。成本失控源于计费维度复杂、价格变动频繁及用户行为影响。领先企业通过成本管控前移,在项目可行性分析阶段引入AIbase等成本计算工具,实现成本可视化,支持技术选型和预算建模,从被动应对转向主动管理,提升AI应用的经济性和可持续竞争力。

  • 如何精准计算AI大模型调用成本?复杂参数太多,预算总超支怎么办?

    文章探讨了AI模型调用成本管理的痛点,包括GPT-4等模型复杂的计费规则(如Token分级、上下文溢价、多模态叠加收费)导致实际成本常超预算40%。提出AIbase计算器三步解决方案:自动匹配场景参数、实时联动报价、明细成本拆解。通过跨境电商客服和高校实验室案例验证工具有效性,强调数据溯源、用量预警和预算缓冲功能,帮助开发者实现精准成本控制,告别手动制表与定�

  • 昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

    中国科学技术大学张燕咏团队在昇腾算力支持下,成功研发出基于专家选择分布预测的专家负载均衡和all2all通信均衡框架。该框架通过“三步走”策略,有效解决了MoE稀疏大模型推理中的专家负载不均和通信开销大两大难题,显著提升推理性能。实验显示,该方案在多项指标上较主流方案提升超30%,为昇腾技术优化MoE模型推理提供了宝贵借鉴,将加速其在各领域的落地应用。

  • AI日报:即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

    AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。

今日大家都在搜的词: