首页 > 业界 > 关键词  > 正文

智源研究院推出1bit自然语言理解预训练模型BiPFT

2024-01-11 09:35 · 稿源:站长之家

站长之家(ChinaZ.com)1月11日 消息:智源研究院提出了首个用于自然语言理解任务的1bit 轻量化预训练模型 BiPFT。与传统的 FP32模型相比,BiPFT 模型在推理阶段显著减少了操作数量和内存使用。该模型在 GLUE 标准测试集上的平均性能超过了15.4%。

与以往的1bit 量化方法不同,BiPFT 直接在预训练阶段使用大量的文本数据对模型进行1bit 预训练,而不是在下游任务上进行量化。这种方法使得模型具备了更好的独立学习能力和超参数鲁棒性。

微信截图_20240111093607.png

另外,智源团队还创新地采用了一种数据驱动的1bit 量化方法,通过对自注意力操作中的1bit 量化误差进行参数化,减少了量化损失。

实验结果表明,BiPFT 模型在1bit activation 下的计算量和内存消耗相比于全精度32位模型分别降低了56倍和28倍。同时,该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。

研究论文

https://arxiv.org/abs/2312.08937

举报

  • 相关推荐
  • 开源即支持!基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

    多模态理解领域当前已成了各家AI大模型公司“军备竞赛”的关键点之一,国内外知名AI大模型公司都争相通过发布最先进的多模态大语言模型展现其在多模态理解领域的前沿能力。近期,上海AI实验室推出了其最新的多模态大语言模型InternVL3 系列,相比上一代InternVL2. 5 模型,该模型展现出卓越的多模态感知和推理能力,同时进一步扩展了其工具使用、GUI代理、工业图像分析等

  • 提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • AI日报:智谱开源32B/9B系列GLM模型并启用Z.ai域名;OpenAI发布GPT-4.1系列模型;阿里魔搭上线MCP广场

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型,并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议,支持商业用途,提升了

  • 微软上线GPT-image-1模型 通过API向开发者开放使用

    OpenAI于4月24日发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持生成高质量图像,具备多级定制功能,包括控制敏感度、生成效率、背景、输出格式等参数,并推出"吉卜力模式"生成独特风格图像。Adobe、Figma等多家企业已将其集成到产品中。API定价按token计算,低质量图像生成成本约0.02美元/张。OpenAI CEO Sam Altman高度评价该模型,认为其为开发者带来更大创意空间。

  • MCP商店平台推荐 ​AIbase推出MCP Store应用商店

    AIbase宣布推出一个专注于ModelContextProtocol技术的资源网站,网址为https://www.aibase.com/zh/repos/topic/mcp。该网站旨在汇聚与MCP相关的热门GitHub仓库,为开发者提供一个探索最新开发趋势和创新的平台,助力开发者更好地了解和应用MCP技术。如果你对MCP技术感兴趣,希望在AI与数据系统融合的领域中探索更多可能,强烈推荐你访问AIbaseMCP资源网站。

  • AI日报:阿里新模型Qwen3即将来袭;GitHub开源MCP服务器;Runway发布Gen-4 Turbo

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Qwen3即将来袭:阿里云新模型相关支持已正式合并至vLLM代码库阿里云的Qwen3模型即将发布,标志着其在AI领域的又一重要进展。新推出的AI听歌报告能够精准识别用户音乐偏好,场景

  • 刚刚,OpenAI发布GPT-image-1模型,更强吉卜力版本来啦

    OpenAI发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数,并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能,图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著,开发者可通过API实现更多创意场景。新模型在�

  • 时空壶接入大语言模型,跨语言沟通已成翻译的艺术

    在当今全球化浪潮中,跨语言沟通的需求如潮水般汹涌。从商务领域的跨国谈判,到文化交流中的思想碰撞,高效、精准的语言翻译成为关键桥梁。随着技术的不断发展与迭代,时空壶有望持续引领行业变革,推动全球交流合作迈向新的高度,真正实现跨越语言障碍,让世界沟通无阻。

  • Create2025百度AI开发者大会举行 文心4.5 Turbo、X1 Turbo发布

    百度在武汉举办Create2025+AI开发者大会,李彦宏强调AI应用创造价值的关键。他指出当前AI模型迭代加速,MCP成为行业标准,但开发者担忧应用快速过时。李彦宏建议开发者选对场景和基础模型,并学习调优方法。百度发布文心大模型4.5 Turbo和X1 Turbo,价格大幅下降80%和50%,性能提升且成本更低,为开发者提供更实惠高效的工具选择。

  • 亚马逊推出AI语音模型Nova Sonic:价格比GPT-4o便宜80%

    亚马逊正式推出新一代生成式AI语音模型NovaSonic,标志着其在人工智能语音领域取得重大突破。这款创新模型能够原生处理语音输入并生成自然流畅的语音输出,在速度、语音识别准确率和对话质量等核心性能指标上,已达到与OpenAI、谷歌等科技巨头的尖端语音模型相媲美的水平。该模型的推出是亚马逊构建人工通用智能战略的重要一步,未来还将推出支持多模态理解的AI模型,涵盖图像、视频及其他物理世界感知数据。