首页 > 业界 > 关键词  > NVIDIA最新资讯  > 正文

有望改写AI未来!NVIDIA全新nGPT使训练速度暴增20倍

2024-10-20 17:22 · 稿源: 快科技

快科技10月20日快讯:据报道,NVIDIA的研究取得突破,有望革新人工智能领域。其团队开发出一种新型神经网络架构——归一化Transformer(nGPT)。

nGPT架构在超球面上进行表示学习,大幅提升语言模型(LLM)的训练效率,最高可达20倍,且保持模型精度。

nGPT架构的核心是对所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态,进行归一化处理,使它们成为单位范数。

这种归一化处理使输入的词标记在超球面表面上移动,每一层模型通过位移对最终输出预测做出贡献。

实验结果表明,与标准Transformer模型相比,nGPT训练所需的步骤减少了4-20倍,具体加速效果取决于序列长度。

例如,在1k上下文下训练速度提升4倍,4k上下文提升10倍,8k上下文提升20倍。

研究人员表示,nGPT的优化路径始于超球面上的点,通过位移贡献最终输出预测,位移量由MLP和注意力模块定义。

这种方法不仅提升了训练速度,还增强了模型的稳定性。

举报

  • 相关推荐
  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • AI日报:生数科技上线Vidu Q1参考生图;字节跳动发布Seedream4.0;百度文心大模型X1.1发布

    本期AI日报聚焦多项AI技术突破与应用进展。生数科技推出Vidu Q1参考生图功能,支持多图输入与一致性生成;字节跳动发布Seedream4.0多模态图像创作模型,推理速度提升10倍;腾讯推出国内首款全形态AI编程工具CodeBuddy,编码效率提升40%;百度文心大模型X1.1升级深度学习能力;OpenAI支持AI动画长片《Critterz》制作;上海AI实验室发布XTuner V1训练引擎提升效率20%;谷歌AI搜索新增5种语言支持;我国发布30项人工智能和15项人形机器人国家标准,推动行业规范化发展。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • Matrixport 受邀出席 Bitcoin Asia 2025,共议机构投资新趋势

    Bitcoin Asia 2025峰会将于8月28-29日在香港举行,由BTC Media主办。预计吸引超1.5万名与会者,涵盖主题演讲、圆桌讨论及展览等活动,突显香港在全球数字资产领域的战略地位。会议将探讨亚太市场潜力、机构化进程及多元化投资机会,并邀请200余位全球重量级嘉宾参与。Matrixport作为亚洲领先加密金融服务平台,将持续推动资产数字化及Web3基础设施落地,助力行业创新与发展。

  • 海宝公司 (Hypertherm Associates) 扩展 XPR® 等离子切割功能,提升生产效率和多功能性

    海宝公司宣布其XPR系列精细等离子系统将在2025年底前迎来多项功能增强,包括全新流线型设计、工业物联网连接、手动设置模式、自动化气刨能力及水雾切割工艺。系统支持以太网和MTConnect协议,提升远程监控与数据交换效率。新增460A水雾切割工艺,可处理更厚材料并实现高质量坡口切割。这些升级旨在提高生产效率、精度和自动化水平,适用于造船、飞机制造及重型设备等领域。

  • 维谛(Vertiv)宣布收购生成式AI软件领军企业Waylay NV

    维谛技术(Vertiv)宣布收购比利时生成式AI软件企业Waylay NV,旨在提升关键数字基础设施的运营智能化水平、系统优化能力及服务体验。此次收购将整合Waylay先进的AI驱动自动化平台,帮助客户实现数据中心电力与热管理系统的实时监控、预测性维护和动态优化,应对AI工作负载快速增长的需求。维谛CEO表示,这将加速公司智能化基础设施愿景的实现,助力客户提升运营效率与�

  • TCL实业IFA 2025:奥运级科技重磅亮相,TCL NXTHOME™重塑未来“生活艺术家”

    TCL在2025年柏林国际电子消费品展览会(IFA)上以冬奥为主题,展示其领先的显示技术、AI科技及全品类智能终端产品。重点推出QD-Mini LED电视、AI空调、环保材料TCL ECORA™等创新方案,并发布全球最大115英寸X11G Max电视及首款彩墨护眼手机。TCL通过AI与显示技术突破,结合可持续设计理念,重新定义智慧生活体验,展现其全球创新实力。

  • AI日报:抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Statsig;ElevenLabs 音效模型更新

    抖音打击AI技术滥用行为,对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2,支持长音频和无缝循环。OpenAI收购数据分析平台Statsig,增强产品迭代能力。亚马逊推出Lens Live AI功能,实时扫描购物。谷歌AI推出Stax工具,帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型,提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型,优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld,精准率达92%。瑞士发布开源大模型Apertus,提供多语言处理能力。

今日大家都在搜的词: