AI圈头条！谷歌Transformer开山论文惊天「翻车」

2023-05-10 09:40 · 稿源：站长之家

站长之家（ChinaZ.com）5月10日消息:AI圈大头条!谷歌大脑的NLP奠基之作、提出Transformer架构的开山鼻祖级论文《Attention Is All Your Need》竟然出现图与代码不一致的问题。

QQ截图20230510093953.jpg

今天，谷歌的开创性论文《Attention Is All Your Need》中变压器架构的原始图表被发现是不正确的，LayerNorm处于错误的位置。然而，一篇新论文表明，将Pre-LN和Post-LN结合起来可以解决梯度爆炸和消失的问题。

论文地址:https://arxiv.org/abs/1706.03762

代码地址:

https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e

据悉，Transformer架构是人工智能的基石，自2017年发表以来，该论文已被引用超过7万多次。在图表中发现错误引发了对该领域其他开创性论文准确性的质疑。

QQ截图20230510093914.jpg

图中的错误可能导致转换器体系结构的不正确实现，这可能会影响使用它构建的模型的性能。

关于使用Pre-LN还是Post-LN的讨论正在进行中，新论文中提出的两种方法的结合可能会导致人工智能模型开发的进一步发展。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐Transformer作者预警：只卖模型玩不过OpenAI！

Transformer八子中最年轻的AidanGomez在最新的采访中感叹:谷歌版的AidanGomez，是给AI领域带来深远影响的Transformer作者之一。现在的AidanGomez，是估值飙升55亿美元的Cohere公司的联合创始人兼CEO。所以我认为我们的首要任务应该是提高生产力和增长。

OpenAI Transformer 人工智能
荐Transformer“贡献最大”作者，重返谷歌出任Gemini联合技术主管

出任Gemini联合技术主管!这就是Transformer“贡献最大”作者NoamShazeer，重返谷歌后的最新动向。据TheInformation的更多爆料，Shazeer将与谷歌AI主管JeffDean和DeepMind首席科学家OriolVinyals，一起致力于Gemini的开发。这也让人不得不感慨，即使是AI搜索，在盈利模式上还是和传统搜索一样，都得靠广告。

Transformer 谷歌 Gemini
荐语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场

【新智元导读】就在刚刚，Meta最新发布的Transfusion，能够训练生成文本和图像的统一模型了!完美融合Transformer和扩散领域之后，语言模型和图像大一统，又近了一步。真正的多模态AI模型，可能很快就要来了!Transformer和Diffusion，终于有了一次出色的融合。他在卡耐基梅隆大学语言技术研究所获得博士学位，师从EduardHovy教授，并在上海交通大学获得了计算机科学硕士和学士学位�

Transformer Diffusion Meta
谷歌想蹭奥运热度却惨遭翻车！AI广告上线仅一周就被撤下

谷歌近期尝试借助奥运会推广其聊天机器人Gemini，却因一则广告引发广泛争议，不得不在广告上线仅一周后撤下。这则名为亲爱的悉尼”的广告，讲述了一个父亲让AI帮助女儿写信给她最喜欢的运动员。谷歌的一位发言人在声明中表示，考虑到反馈，公司决定撤下这则广告。

谷歌 Gemini 广告争议
荐Post-Training有多重要？AI2研究员长文详解前沿模型的后训练秘籍

越来越多研究发现，后训练对模型性能同样重要。AllenAI的机器学习研究员NathanLambert最近发表了一篇技术博文，总结了科技巨头们所使用的模型后训练配方。到了一定的时间节点，这些细节都会变得微不足道。

AI模型后训练 LLM技术发展机器学习微调方法
荐Nature曝惊人内幕：论文被天价卖出喂AI！出版商狂赚上亿，作者0收入

Nature的一篇文章透露:你发过的paper，很可能已经被拿去训练模型了!有的出版商靠卖数据，已经狂赚2300万美元。然辛辛苦苦码论文的作者们，却拿不到一分钱，这合理吗?全球数据告急，怎么办?论文来凑!最近，Nature的一篇文章向我们揭露了这样一个事实:连科研论文，都被薅去训AI了……据悉，很多学术出版商，已经向科技公司授权访问自家的论文，用来训练AI模型。与前面的基�

科研伦理 AI训练数据学术出版
荐AI日报：新壹视频大模型2.0发布；LivePortrait支持用图片控制动画；AI腹肌软件Gigabody爆火；免费无水印的AI视频生成工具Hotshot

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、新壹视频大模型2.0发布:支持1080P60帧输出最高支持4K新壹科技最新发布的新壹视频大模型2.0在AI视频创作领域取得重大突破，实现全流程自动化创作，降低视频创作门槛和成本。v0�

新壹视频
荐AI日报：阿里推多角色一致性框架UniPortrait；腾讯混元上线三款ControlNet插件；苹果研发桌面机器人；Claude推提示词缓存功能

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里团队推新框架UniPortrait:支持多角色一致性和风格参考阿里巴巴集团研究团队发布了UniPortrait框架，专注于人像图像的个性化处理，实现单角色一致性、多角色一致性和风格参�

UniPortrait
Intel下代酷睿Ultra 3升级8核心！4大4小你要吗？

12/13/14代酷睿的低端i3系列一直都是4核心是4个P大核。根据最新情报，代号ArrowLake的下一代也将有入门的酷睿Ultra3系列升级为8核心。这么算下来，ArrowLake预计会有20款左右的型号，之前曝光的酷睿Ultra9系列是8大16小，酷睿Ultra7系列是8大12小，酷睿Ultra5系列是6大8小、6大4小。

酷睿Ultra系列 Arrow Lake
Nvidia 和 Mistral AI 的超精确小语言模型适用于笔记本电脑和 PC

Nvidia和MistralAI发布了一款新型的小型语言模型，据称该模型在小体积下依然具有「最先进」的准确性。该模型名为Mistral-NemMo-Minitron8B，是NeMo12B的迷你版本，参数量从120亿缩减到了80亿。开发者可以将这些优化技术应用于所有现有的语言模型，从显著提升整体性能，包括那些只能由AI加速服务器群组运行的大型语言模型。

Mistral Nvidia 人工智能

BNA:多功能AI超级应用，涵盖社交、电商、娱乐和教育。

BNA AI Super App是一款集成了多种智能服务的超级应用，它不仅提供社交功能，如分享帖子、写博客、聊天和视频通话，还涵盖了AI电商和娱乐服务。此外，该应用还提供40种语言的AI教学服务，帮助用户学习不同的语言。BNA AI Super App以其强大的AI功能和多语言支持，满足了不同用户群体的需求。

AI 多语言学习社交

Elisi:高效能自主层级式计划助手

Elisi 是一款旨在帮助用户实现个人成长的终极组织者和指南。它通过直观的设计和用户友好的说明，帮助用户将梦想转化为清晰的结果，分解成可实现的里程碑，并通过AI技术理解并适应用户的个人需求，确保每一天都更有条理和高效。Elisi 致力于提供便捷服务，主要功能套件完全免费。

个人成长时间管理目标设定

Omi AI:个性化AI助手，记录每一刻，与AI对话获取反馈。

OMI APP是一个任务驱动的个性化AI助手，旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本，提供提醒、建议等功能，同时注重用户隐私。

AI助手语音转录隐私保护

MeowMail:高送达率的AI电子邮件营销工具

MeowMail是一款集成在Shopify后台的电子邮件营销应用，利用AI技术自动选择最佳发送时间，提高邮件的送达率至98%以上。它支持拖放编辑、从Klaviyo导入邮件列表、使用Beefree编辑器创建新邮件，并通过设定支出限制来管理邮件营销活动。MeowMail还提供企业级支持和自动翻译文本功能，帮助商家以低成本实现高效的邮件营销。

邮件营销 AI技术 Shopify应用

Maia 100:微软定制AI加速器，专为大规模AI工作负载设计。

Maia 100是微软为Azure设计的首款定制AI加速器，专为大规模AI工作负载而打造，通过软硬件的协同优化，实现了性能、可扩展性和灵活性的最大化。它采用了TSMC N5工艺和COWOS-S互连技术，具备高达1.8TB/s的带宽和64GB的容量，支持高达700W的热设计功耗(TDP)，但以500W运行，确保了高效的能效比。Maia 100集成了高速张量单元、向量处理器、DMA引擎和硬件信号量，支持多种数据类型和张量切分方案，并通过以太网互连支持大规模AI模型。此外，Maia SDK提供了丰富的组件，支持快速部署PyTorch和Triton模型，并通过双编程模型确保高效的数据处理和同步。

AI加速器 Azure 大规模计算

LTM:超长上下文模型，革新软件开发

Magic团队开发的超长上下文模型（LTM）能够处理高达100M tokens的上下文信息，这在AI领域是一个重大突破。该技术主要针对软件开发领域，通过在推理过程中提供大量代码、文档和库的上下文，极大地提升了代码合成的质量和效率。与传统的循环神经网络和状态空间模型相比，LTM模型在存储和检索大量信息方面具有明显优势，能够构建更复杂的逻辑电路。此外，Magic团队还与Google Cloud合作，利用NVIDIA GB200 NVL72构建下一代AI超级计算机，进一步推动模型的推理和训练效率。

AI 软件开发上下文推理

EZ-work AI文档翻译:智能AI翻译，高效文档语言转换助手。

EZ-work AI文档翻译是一款专注于文档翻译的在线服务，支持多种语言的翻译，包括中文、英语、日语、俄语、阿拉伯语和西班牙语等。它使用先进的AI技术，如gpt-4o-mini和deepseek-chat模型，为用户提供快速、准确的翻译服务。该产品适用于需要文档翻译的个人和企业，尤其在国际交流和学术研究领域尤为重要。

翻译 AI 文档处理

Watson AI:会议助手，自动记录并总结会议要点。

Watson AI是一款会议助手应用程序，它通过录制系统音频和麦克风来转录和总结会议内容，自动提取行动项和会议摘要，帮助用户更高效地进行会议记录和回顾。

会议助手自动记录效率工具

PicTech AI: 免费在线AI图片翻译助力跨境电商

PicTech AI是由学以致用科技旗下的智能图像工具品牌，专注于为跨境电商提供AI驱动的图片翻译服务。该产品利用人工智能技术，实现高准确率和高清晰度的图片翻译，支持中文、英语到日语、韩语等多国语言的翻译。PicTech AI的智能抠图功能，能够准确检测图片主体边缘，一键去除背景，无需专业编辑。产品背景信息显示，其团队由来自百度、网易、阿里巴巴等行业巨头的顶尖高科技人才组成，具备强大的技术实力和产品能力。该产品定位于帮助跨境电商从业者简化工作流程，提高效率，无需懂外语或图像处理技能即可使用。

AI翻译跨境电商智能抠图

AnythingLLM:一站式AI应用，支持多种文档和模型。

AnythingLLM是一个多功能的桌面客户端，支持多种语言模型（LLM）和文档类型，提供完全私密的使用体验。用户可以根据自己的需求选择企业级模型、自定义模型或开源模型，如GPT-4、Llama、Mistral等。产品支持一键安装，本地运行，无需互联网连接，保护用户隐私。

AI 文档处理隐私保护

林哥的大模型野榜:更适合中国宝宝体质的大模型产品排行榜

林哥的大模型野榜是一个专注于中国用户需求的大模型产品排行榜，提供了多维度的评估和排名，帮助用户更好地了解和选择适合的大模型产品。

大模型排行榜多维度评估

Fluximg.com:AI文本到图像生成器，支持多尺寸和自动翻译。

Fluximg.com是一个基于Flux模型的AI图像生成网站，提供从文本到图像的转换服务。它支持多种语言，包括中文和英文，并且具有用户友好的界面。网站提供免费和专业版本，使用户能够根据自己的需求选择不同的服务级别。

AI图像生成多尺寸自动翻译

现代文转古文:将现代汉语转化为古汉语，提升文采。

现代文转古文是一款能够将现代汉语自动转换为古汉语的模型，它通过先进的自然语言处理技术，使得用户可以轻松地将现代文本转换成具有古典韵味的古文。这种转换不仅能够增加文本的文学价值，还能在教育、文学创作、文化传承等方面发挥重要作用。

古文文学转换

Zamba2-mini:先进的小型语言模型，专为设备端应用设计。

Zamba2-mini是由Zyphra Technologies Inc.发布的小型语言模型，专为设备端应用设计。它在保持极小的内存占用(<700MB)的同时，实现了与更大模型相媲美的评估分数和性能。该模型采用了4bit量化技术，具有7倍参数下降的同时保持相同性能的特点。Zamba2-mini在推理效率上表现出色，与Phi3-3.8B等更大模型相比，具有更快的首令牌生成时间、更低的内存开销和更低的生成延迟。此外，该模型的权重已开源发布(Apache 2.0)，允许研究人员、开发者和公司利用其能力，推动高效基础模型的边界。

AI圈头条！谷歌Transformer开山论文惊天「翻车」

今日大家都在搜的词：

热文

站长商机