首页 > 业界 > 关键词  > 正文

智源研究院推出1bit自然语言理解预训练模型BiPFT

2024-01-11 09:35 · 稿源:站长之家

站长之家(ChinaZ.com)1月11日 消息:智源研究院提出了首个用于自然语言理解任务的1bit 轻量化预训练模型 BiPFT。与传统的 FP32模型相比,BiPFT 模型在推理阶段显著减少了操作数量和内存使用。该模型在 GLUE 标准测试集上的平均性能超过了15.4%。

与以往的1bit 量化方法不同,BiPFT 直接在预训练阶段使用大量的文本数据对模型进行1bit 预训练,而不是在下游任务上进行量化。这种方法使得模型具备了更好的独立学习能力和超参数鲁棒性。

微信截图_20240111093607.png

另外,智源团队还创新地采用了一种数据驱动的1bit 量化方法,通过对自注意力操作中的1bit 量化误差进行参数化,减少了量化损失。

实验结果表明,BiPFT 模型在1bit activation 下的计算量和内存消耗相比于全精度32位模型分别降低了56倍和28倍。同时,该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。

研究论文

https://arxiv.org/abs/2312.08937

举报

  • 相关推荐
  • 1分钟生成精准凭证,用友BIP收入云8.0让合规与效率两不误

    传统财务凭证生成依赖人工录入,效率低、易出错且合规风险高。用友BIP收入8.0通过AI生单技术实现全自动凭证生成,将耗时从数天缩短至1分钟,提升准确性与合规性。系统自动匹配会计科目,无缝对接电子发票,支持多行业适配,助力企业实现效率与合规的双重突破,重构财务管理模式。

  • 天翼云TeleDB通过信通院“可信数据库”安全专项测试

    中国信通院公布2025上半年“可信数据库”评估结果,天翼云TeleDB高可用关系型数据库通过安全专项测试,产品性能与安全能力达行业领先水平。TeleDB具备高性能、高可用、高可靠、高安全、易扩展、易管理等优势,已在政务、物联网、新能源、医疗等行业广泛应用,助力企业数字化转型。此次评测进一步验证了国产数据库的技术实力,推动我国数据库产业快速发展。

  • 酒店对账熬到凌晨?用友BIP收入云8.0:4步搞定,效率翻 10 倍

    连锁酒店行业进入精细化运营阶段,面临收入管理难题:多平台数据分散、财务对账复杂、人工核算易错、数据滞后影响决策。用友BIP收入云8.0通过AI自动取数、对账、生单和智能分析,实现全流程自动化,提升60%效率,让营收可管、可算、可追,帮助酒店精准把控利润增长点。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • 中国UP主成为不了MrBeast

    影视飓风创始人Tim刚刚结束的“100小时荒岛直播挑战”,无疑是一次B站在这个夏天难得的现象级事件——B站累计超过四千万观众进入直播间,全平台总观看量超过两亿,弹幕数以百万计,甚至带动了直播带货的即时转化。 从数据到热搜,此次直播堪称完美演绎了“爆款”的逻辑。 质疑声同样随之而来:这场直播与其说是“荒岛生存”,不如说是“带电度假”;也评论认为,它

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • 豆包1.5 Vision Lite 对比 GPT-5-min,谁更适合你?实测AI模型选型利器|AIBase

    文章探讨了企业选择AI大模型时面临的实际决策难题,指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台(https://model.aibase.cn/compare)通过三大核心价值解决痛点:1)聚焦业务场景而非参数堆砌,突出价格、语言支持、上下文长度等实用维度;2)透明化成本计算,标注长文本溢价规则和多模态附加费;3)一键生成对比报告。平台特别强调中文场景的特殊性(如豆包1.5在中文处理成本的优势),并揭示厂商宣传中容易忽略的隐藏成本(如GPT-5-min超5000字符的30%溢价)。典型电商客服案例显示,需综合中文理解、多模态、性价比等维度决策,最终选择取决于具体业务需求而非绝对性能排名。

  • 小米张国全回应澎湃OS 3 Beta版是否本月推出:不能说 很快!

    小米集团日前发布了第二季度财报,小米手机系统软件部总监张国全转发了该消息,并表示坚定投入核心技术,连续3个季度超千亿”。 有网友在评论区问到,澎湃OS 3 Beta版是否会在这个月推出,张国全回复称:不能说,很快”。另外,近期国产手机厂商都纷纷接入了12306,可以在系统内方便的展示购票信息。 也有网友问到了澎湃这边什么时候接入,张国全称:本来计划OS3一�

  • Matrixport 受邀出席 Bitcoin Asia 2025,共议机构投资新趋势

    Bitcoin Asia 2025峰会将于8月28-29日在香港举行,由BTC Media主办。预计吸引超1.5万名与会者,涵盖主题演讲、圆桌讨论及展览等活动,突显香港在全球数字资产领域的战略地位。会议将探讨亚太市场潜力、机构化进程及多元化投资机会,并邀请200余位全球重量级嘉宾参与。Matrixport作为亚洲领先加密金融服务平台,将持续推动资产数字化及Web3基础设施落地,助力行业创新与发展。

今日大家都在搜的词: