11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/📰🤖📢AI新鲜事马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放【AiBase提要:】🚀马斯克旗下xAI公司开源了3140亿参数的混合专家模型「Grok-1」及权重和网络架构。⭐OpenRouter�
零一万物发布了Yi大模型API,并启动了公测。这次邀测提供了两种模型:Yi-34B-Chat和Yi-34B-Chat-200K。Yi大模型API与OpenAIAPI完全兼容,可以平滑迁移,享受Yi大模型的超凡魅力。
只要四行代码就能让大模型窗口长度暴增,最高可增加3倍!且是“即插即用”,理论上可以适配任意大模型,目前已在Mistral和Llama2上试验成功。有了这项技术,大模型就能摇身一变,成为LongLM。SE的原作者也说,目前SE方法的确还没有做过效率方面的优化,未来计划通过引入FlashAttention机制等策略来解决这一问题。
各家大模型纷纷卷起上下文窗口,Llama-1时标配还是2k,现在不超过100k的已经不好意思出门了。然鹅一项极限测试却发现,大部分人用法都不对,没发挥出AI应有的实力。月之暗面的工程师还搞了更多轮实验,其中一个居然是……坏了,我成测试数据了。
LeCun在推特上引发了关于大语言模型推理能力的讨论,强调LLM缺乏真正的规划推理能力,其涌现能力实际上是上下文学习的结果。研究通过多个实验验证LLM在复杂规划任务上表现不佳,强调其能力受限于任务复杂度。随着对LLM的研究的不断深入,对其真实能力的理解也在逐渐清晰,为未来自然语言处理研究方向提供了有价值的参考。
由李开复博士亲自下场创办的零一万物,自3月底官宣成立后,于近日发布并开源了两个版本的中英文大模型Yi-6B和Yi-34B。在线上发布环节,李开复博士重点介绍了Yi系列大模型的三处性能亮点:全球最长200K上下文窗口,免费开源超强AlInfra实测训练,成本下降40%科学训模自研「规模化训练实验平台」Yi-34B目前在各个基准测试中,都获得了很好的表现,据零一万物提供的评测结果看来,Yi-34B和Yi-6B均在MMLU、BBH、C-Eval取得了不错的成绩。零一万物相信AI赋能推动人类社会前行,AI应本着以人为本的精神,为人类创造巨大的价值。
大模型业务到底多烧钱?前段时间,华尔街日报的一则报道给出了参考答案。微软的GitHubCopilot业务虽然每月收费10美元,但平均还是要为每个用户倒贴20美元。「Infini-Megrez」大模型在CEval、MMLU、CMMLU、AGIEval等数据集上均取得了第一梯队算法性能,并依托「Infini-ACC」计算引擎持续进化中。
OpenAI首届开发者大会开启前,ChatGPT各种爆料已出,全新UI界面,人人可定制GPT,将引领「智能体工程师」新职业诞生。马斯克自家的xAI大模型也开启了大范围内测。很多花钱买了小蓝标认证的用户,依然得不到新功能的提前预览,要求给个解释。
2023年10月9日,成立仅半年的大模型初创公司——MoonshotAI宣布在“长文本”领域实现了突破,推出了首个支持输入20万汉字的智能助手产品KimiChat。这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度,标志着MoonshotAI在这一重要技术上取得了领先水平。MoonshotAI融资超2亿美元。
大型语言模型在自然语言处理任务上的强大表现主要归功于模型所能捕捉的上下文信息。Rotarypositionembedding增强了模型处理顺序数据和捕获序列中位置信息的能力。基于变换器的模型可以结合外部记忆库来存储与上下文相关的信息,用于下游任务如问答或机器翻译。
Llama2系列又上新,这回是Meta官方出品的开源编程大模型CodeLlama。模型一发布,官方直接给贴了个“最强”标签强调了一把“免费可商用”。如果你对CodeLlama感兴趣,GitHub项目链接文末奉上~不过,想要获得代码和模型权重得先给Meta发个申请。
长颈鹿是Abacus.AI团队基于LLaMA模型系列打造的新作,被称为“开源大模型史上第一个上下文长度达到32k的版本”。LLaMA发布于2022年,包含多个规模参数的迭代版本,但都仅有4k的上下文长度,在实际应用中表现仍有局限。可以说长颈鹿与Together.AI的模型并列为当前开源领域32k长度的“第一”。
一个StableDiffusion还不够!StabilityAI再放杀手锏,进击代码生成领域:推出了一款自称具有革命性的编码工具StableCode。敲重点的是,StableCode不仅支持Python、Go、Java、JavaScript、C、Markdown、C等多种编程语言。Cooper表示:StableCode目前还处于早期阶段,初始发布的目标是观察开发者如何接受和使用这个模型。
在语言模型中,上下文窗口对于理解和生成与特定上下文相关的文本至关重要。一般言较大的上下文窗口可以提供更丰富的语义信息、消除歧义。要真正改善模型处理长上下文的能力,可能需要从模型本身进行改进,例如改进模型的架构或者训练策略。
开源羊驼大模型LLaMA上下文追平GPT-4,只需要一个简单改动!MetaAI这篇刚刚提交的论文表示,LLaMA上下文窗口从2k扩展到32k后只需要小于1000步的微调。与预训练相比,成本忽略不计。3、来自Mila、IBM等机构的团队还在一篇论文中尝试了在Transformer中完全去掉位置编码的方法。
麻省理工学院和香港中文大学联合发布了LongLoRA,这是一种全新的微调方法,可以增强大语言模型的上下文能力无需消耗大量算力资源。想增加大语言模型的上下文处理能力,需要更多的算力支持。LongLoRA在大型语言模型领域提出了创新方法,在处理大量信息时,也可以更轻松、更高效地微调这些模型必须消耗更多的算力资源。
研究人员使用插值技术将开源语言模型LLaMA的上下文窗口从原来的约3,200个token扩大了10倍,达到约32,000个token,由此开发出新的开源语言模型Giraffe。该版本有130亿个参数版本,并且拥有所有开源LLM中最大的上下文窗口之一。开源的Giraffe-v2-13b-32k模型已在HuggingFace平台上线,代码也在GitHub上开源。