首页 > 业界 > 关键词  > Transformer最新资讯  > 正文

视觉Transformer中ReLU替代softmax,DeepMind新招让成本速降

2023-09-20 08:46 · 稿源: ​机器之心公众号

Transformer 架构已经在现代机器学习领域得到了广泛的应用。注意力是 transformer 的一大核心组件,其中包含了一个 softmax,作用是产生 token 的一个概率分布。softmax 有较高的成本,因为其会执行指数计算和对序列长度求和,这会使得并行化难以执行。Google DeepMind 想到了一个

......

本文由站长之家合作伙伴自媒体作者“​机器之心公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 保守了?谷歌DeepMind CEO:媲美人类的AI将在5至10年内实现

    据CNBC报道称,谷歌旗下人工智能实验室DeepMind首席执行官戴密斯·哈萨比斯在周一的新闻发布会上预测,能够与人类竞争的人工智能即将出现,虽然各方面都能赶上人类的AI的落地还有很长的路要走,但成为现实也只是时间问题已。哈萨比斯表示:“目前,人工智能在某些领域表现非常出色,但尚未达到能够像人类一样执行所有复杂功能的阶段。哈萨比斯则认为“没人知道ASI何时会出现”、“一旦人工智能拥有了人类级别的思维能力,其影响将难以想象。

  • DeepSeek第三弹:开源DeepGEMM!

    今天上午9点,DeepSeek继续履行开源周承诺,发布了开源DeepGEMM。该帖子一经转发,立即引来了2.1万阅读量,足以见其在国内外受到追捧的热度。本次开源属于DeepSeek开源周”的第三项项目,此前已发布FlashMLA和DeepEP。

  • 正在刷屏的Manus是什么?Manus和DeepSeek的差别是什么

    3月5日,一款名为“Manus”的AI智能体产品正式发布其早期预览版,迅速在网络上走红,并于次日登上微博热搜。这款由中国创业公司Monica研发的产品,被誉为全球首款通用Agent,其强大的功能和独特的定位引发了科技界的广泛关注。随着技术的不断进步和应用场景的不断拓展,相信未来会有更多像Manus这样的优秀AI产品涌现出来,为人们的生活带来更多便利和惊喜。

  • 接入DeepSeek后的自由画布,做PPT还真的有点强。

    百度文库那个自由画布全量上线了。百度的产品,其实我写的都会比较谨慎。

  • 寻找DeepSeek梁文锋

    AI大模型DeepSeek凭借好用、开源、免费三大特点火爆全球,成为史上最快突破3000万日活跃用户的APP,如今当下各行各业都在被DeepSeek化。就是这样一家公司,在爆火之前,外界知之甚少,它极少出现在媒体报道、猎头招聘、同行调研之中,也从未像“AI六小龙”那样激起过市场的水花。但无论如何,DeepSeek打破巨头了在AI领域的叙事,现在投资人们迫切希望在下一个DeepSeek出现之�

  • 广告盯上DeepSeek

    AI搜索加广告,是必然吗?定焦One原创作者|王璐编辑|魏佳DeepSeek们最近因为答案中疑似“夹带”广告被骂了。起因是科普博主“三个老爸实验室”称在腾讯元宝接入的DeepSeek里发现,生成答案中有“建议通过58到家等正规平台比价预约”“建议通过快回收平台或本地正规回收商询价”等广告倾向性内容。需要提醒大家的是,即便有没有广告,AI的回答也不是绝对客观中立。

  • 苹果最强M3 Ultra首发逆天,512GB“桌面超算”在家跑DeepSeek-R1

    苹果深夜放大招!昨晚,苹果重磅发布新款MacStudio,配备了地表最强的全新M3Ultra和M4Max芯片。M3Ultra集成了1840亿个晶体管,性能是M1Ultra的2.5倍。新款MacBookAir起售价7999元,凭借其高性价比,仍然是最畅销的笔记本电脑之一。

  • 腾讯ima上架苹果App Store:接入满血DeepSeek 打造个人知识库

    腾讯ima现已上架苹果AppStore。ima已上线Windows端、Mac端、安卓端和ima知识库”小程序,现在基本实现了全平台覆盖。笔记”功能可以基于用户资料生成文章、论文等,可以对内容进行编辑以及智能化写作可以将笔记收录至个人知识库。

  • 速度2.6倍提升,TencentOS 支持满血版DeepSeek

    TencentOSServerAI全面支持满血版DeepSeekR1,在双机16卡的硬件环境上,分别在短输入场景以及长输入场景均获得超过2.6倍的推理性能提升!本性能评估采用2台8卡服务器,显存总量共1536GB,部署TencentOSServerAI版,2台服务器采用RDMA高速网络互联,测试样本采用通用的数据集。分别测试输入200tokens/输出500tokens以及输入6144tokens/输出1024tokens下的吞吐能力,测试结果如下:TencentOSServerAI是腾讯云发布的一款针对AI场景的操作系统,提供了从基础架构到AI框架以及模型的全栈式AI环境,一方面简化部署,另一方面通过高性能的AI框架,实现大模型如DeepSeek推理效率成倍的增加。

  • 我已确诊为“DeepSeek人格”:勿扰

    可能是AGI迟迟不来、等待“AI更像人/超越人”太辛苦。也或许是“AI代替人类劳动力”的预言太惊悚,吓到了人类。”说到底,AGI还没达到,终究是人被异化了。