11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
北京大学张牧涵团队在昇腾算力支持下,研发出一套高效大模型训练推理架构,实现百万tokens输入成本低至1元。该成果包含三项关键技术:1)通过分离注意力头中的位置与非位置信息,仅用3%位置信息即可维持模型性能;2)采用联合KV低秩压缩方法,仅保留12.5%的KV Cache;3)基于昇腾硬件并行计算能力,实现Recurrent Decoding技术提升训练数据利用率。该架构显著降低AI大模型应用成本,验证了昇腾算力平台支撑尖端科研的实力。
华为全联接大会2024在上海盛大举行。大会以“共赢行业智能化”为主题,与全球思想领袖、商业精英、技术专家、合作伙伴、开发者等共同探讨如何赋能行业数智化转型,把握新机遇。云天励飞将与华为一起努力,持续推动国产大模型迭代和应用落地,为国产AI生态贡献力量。
云天励飞推出IPU-X6000加速卡。该产品具备256T算力、128GB显存容量、486GB/S显存带宽;采用C2CMesh互联技术,可实现卡间高速互联,带宽达64GB/s,最大可实现64张卡的互联;可应用于语言、视觉、多模态等各类大模型的推理加速,目前已适配云天天书、通义千问、百川智能、Llama2/3等近10个主流大模型。未来X6000将进一步支撑云天励飞智算运营业务,为行业带来更丰富的算力服务。
纽约大学的最新研究对当前流行的思维链技术提出了挑战,该技术原本被认为能够提升大模型的推理能力。使用省略号代替具体的推理步骤,模型的推理结果并没有显著差异,这意味着增加计算量非推理步骤本身可能是提升性能的关键。也引发了关于AI安全性和未来发展的进一步思考。
在人工智能领域,尤其是在模型训练和推理阶段,显卡的性能至关重要。随着模型的规模越来越大,对算力的需求也会倍增。新用户还可以免费领取500元卡时计算资源。
Groq公司推出的大模型推理芯片以每秒500tokens的速度引起轰动,超越了传统GPU和谷歌TPU。该芯片由初创公司Groq研发,其团队成员来自谷歌TPU,包括创始人兼CEOJonathanRoss,曾设计实现第一代TPU芯片的核心元件。Groq产品以其出色的推理性能、对多种开源LLM模型的支持以及具有竞争力的价格政策等特色,成为一个引人注目的选择。
11月15日,在高交会开幕式上,云天励飞重磅发布新一代AI芯片DeepEdge10。云天励飞董事长兼CEO陈宁博士在高交会开幕式上介绍DeepEdge10芯片DeepEdge10是国内首创的国产14nmChiplet大模型推理芯片,采用自主可控的国产工艺,内含国产RISC-V核,支持大模型推理部署。云天励飞将继续加大自主研发力度,立足自主可控,以自研“芯”,为自进化城市智能体发展提供强大引擎。
推理大模型是AI服务提供商面临的巨大经济挑战之一,因为运营这些模型的成本非常高。FlashDecoding是一种新的技术,旨在解决这一问题,它通过提高LLM推理速度和降低成本,为使用大模型赚钱提供了新的可能性。这对AI服务提供商和大模型创业公司都是一个重要的突破。
最新MLPerf推理测试结果公布,墨芯人工智能再次夺冠,其S30计算卡在GPT-J大模型的单卡、4卡、8卡推理性能均位居第一。此前墨芯已在MLPerf上连续两届夺冠。MLPerf成绩是对墨芯产品实力的肯定,也印证稀疏计算将助力大模型算力实现根本性变革。
美团联合创始人王慧文光年之外收购的OneFlow团队将重新创业,由一流科技创始人袁进辉领导,瞄准AI推理领域。袁进辉表示,OneFlow团队计划第一个推出的产品是大模型推理和部署系统,解决AIGC和LLM行业推理部署成本太高的痛点。今年3月,王慧文的光年之外公司收购OneFlow。