大模型长上下文窗口技术

欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/📰🤖📢AI新鲜事马斯克开源Grok-1:3140亿参数迄今最大，权重架构全开放【AiBase提要:】🚀马斯克旗下xAI公司开源了3140亿参数的混合专家模型「Grok-1」及权重和网络架构。⭐OpenRouter�...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

与“大模型长上下文窗口技术”的相关热搜词：

相关“大模型长上下文窗口技术” 的资讯17篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐今日AI：马斯克开源最大模型Grok-1；不等OpenAI！国产类Sora抢先开源；iPhone很快可直接使用Gemini模型；Kimi Chat超长上下文免费用

欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/📰🤖📢AI新鲜事马斯克开源Grok-1:3140亿参数迄今最大，权重架构全开放【AiBase提要:】🚀马斯克旗下xAI公司开源了3140亿参数的混合专家模型「Grok-1」及权重和网络架构。⭐OpenRouter�

Grok-1
零一万物发布 Yi 大模型 API 并启动公测：支持上下文 200K

零一万物发布了Yi大模型API，并启动了公测。这次邀测提供了两种模型:Yi-34B-Chat和Yi-34B-Chat-200K。Yi大模型API与OpenAIAPI完全兼容，可以平滑迁移，享受Yi大模型的超凡魅力。
四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

只要四行代码就能让大模型窗口长度暴增，最高可增加3倍!且是“即插即用”，理论上可以适配任意大模型，目前已在Mistral和Llama2上试验成功。有了这项技术，大模型就能摇身一变，成为LongLM。SE的原作者也说，目前SE方法的确还没有做过效率方面的优化，未来计划通过引入FlashAttention机制等策略来解决这一问题。

Mistral 大模型
荐一句话解锁100k+上下文大模型真实力，27分涨到98，GPT-4、Claude2.1适用

各家大模型纷纷卷起上下文窗口，Llama-1时标配还是2k，现在不超过100k的已经不好意思出门了。然鹅一项极限测试却发现，大部分人用法都不对，没发挥出AI应有的实力。月之暗面的工程师还搞了更多轮实验，其中一个居然是……坏了，我成测试数据了。

大模型
LeCun发文质疑LLM推理能力大模型涌现离不开上下文学习

LeCun在推特上引发了关于大语言模型推理能力的讨论，强调LLM缺乏真正的规划推理能力，其涌现能力实际上是上下文学习的结果。研究通过多个实验验证LLM在复杂规划任务上表现不佳，强调其能力受限于任务复杂度。随着对LLM的研究的不断深入，对其真实能力的理解也在逐渐清晰，为未来自然语言处理研究方向提供了有价值的参考。

大模型
李开复领队开源大模型 Yi，40万字上下文窗口破纪录

由李开复博士亲自下场创办的零一万物，自3月底官宣成立后，于近日发布并开源了两个版本的中英文大模型Yi-6B和Yi-34B。在线上发布环节，李开复博士重点介绍了Yi系列大模型的三处性能亮点:全球最长200K上下文窗口，免费开源超强AlInfra实测训练，成本下降40%科学训模自研「规模化训练实验平台」Yi-34B目前在各个基准测试中，都获得了很好的表现，据零一万物提供的评测结果看来，Yi-34B和Yi-6B均在MMLU、BBH、C-Eval取得了不错的成绩。零一万物相信AI赋能推动人类社会前行，AI应本着以人为本的精神，为人类创造巨大的价值。

李开复
GPU推理提速4倍，256K上下文全球最长：无问芯穹刷新大模型优化记录

大模型业务到底多烧钱?前段时间，华尔街日报的一则报道给出了参考答案。微软的GitHubCopilot业务虽然每月收费10美元，但平均还是要为每个用户倒贴20美元。「Infini-Megrez」大模型在CEval、MMLU、CMMLU、AGIEval等数据集上均取得了第一梯队算法性能，并依托「Infini-ACC」计算引擎持续进化中。

大模型无问芯穹
王者GPT-4已来，32k上下文！OpenAI首届开发者大会最新爆料，全新UI可定制GPT，xAI大模型大范围可用

OpenAI首届开发者大会开启前，ChatGPT各种爆料已出，全新UI界面，人人可定制GPT，将引领「智能体工程师」新职业诞生。马斯克自家的xAI大模型也开启了大范围内测。很多花钱买了小蓝标认证的用户，依然得不到新功能的提前预览，要求给个解释。

GPT-4 OpenAI
一口气读完一本三体，Moonshot AI首个大模型产品支持20万字上下文

2023年10月9日，成立仅半年的大模型初创公司——MoonshotAI宣布在“长文本”领域实现了突破，推出了首个支持输入20万汉字的智能助手产品KimiChat。这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度，标志着MoonshotAI在这一重要技术上取得了领先水平。MoonshotAI融资超2亿美元。
YaRN：可高效扩展现有大模型的上下文窗口长度

大型语言模型在自然语言处理任务上的强大表现主要归功于模型所能捕捉的上下文信息。Rotarypositionembedding增强了模型处理顺序数据和捕获序列中位置信息的能力。基于变换器的模型可以结合外部记忆库来存储与上下文相关的信息，用于下游任务如问答或机器翻译。

大模型
荐开源大模型代码短板补上了！新羊驼Python赛过ChatGPT，10万上下文免费可商用

Llama2系列又上新，这回是Meta官方出品的开源编程大模型CodeLlama。模型一发布，官方直接给贴了个“最强”标签强调了一把“免费可商用”。如果你对CodeLlama感兴趣，GitHub项目链接文末奉上~不过，想要获得代码和模型权重得先给Meta发个申请。

Python ChatGPT 羊驼
32k上下文可商用！长颈鹿来袭,开源大模型长度再创新高

长颈鹿是Abacus.AI团队基于LLaMA模型系列打造的新作，被称为“开源大模型史上第一个上下文长度达到32k的版本”。LLaMA发布于2022年，包含多个规模参数的迭代版本，但都仅有4k的上下文长度，在实际应用中表现仍有局限。可以说长颈鹿与Together.AI的模型并列为当前开源领域32k长度的“第一”。

大模型
荐上下文1.6万token的编程大模型来了！与Stable Diffusion出自同门，一次吃5个Python文件不费劲

一个StableDiffusion还不够!StabilityAI再放杀手锏，进击代码生成领域:推出了一款自称具有革命性的编码工具StableCode。敲重点的是，StableCode不仅支持Python、Go、Java、JavaScript、C、Markdown、C等多种编程语言。Cooper表示:StableCode目前还处于早期阶段，初始发布的目标是观察开发者如何接受和使用这个模型。

token StableCode
荐斯坦福大学：大模型“卷”错方向了？上下文窗口越长，模型越笨

在语言模型中，上下文窗口对于理解和生成与特定上下文相关的文本至关重要。一般言较大的上下文窗口可以提供更丰富的语义信息、消除歧义。要真正改善模型处理长上下文的能力，可能需要从模型本身进行改进，例如改进模型的架构或者训练策略。

大模型
羊驼家族大模型集体进化！32k上下文追平GPT-4，田渊栋团队出品

开源羊驼大模型LLaMA上下文追平GPT-4，只需要一个简单改动!MetaAI这篇刚刚提交的论文表示，LLaMA上下文窗口从2k扩展到32k后只需要小于1000步的微调。与预训练相比，成本忽略不计。3、来自Mila、IBM等机构的团队还在一篇论文中尝试了在Transformer中完全去掉位置编码的方法。

SEO优化大师中文SEO优化搜索关键词
LongLoRA：超长上下文，大语言模型高效微调方法

麻省理工学院和香港中文大学联合发布了LongLoRA，这是一种全新的微调方法，可以增强大语言模型的上下文能力无需消耗大量算力资源。想增加大语言模型的上下文处理能力，需要更多的算力支持。LongLoRA在大型语言模型领域提出了创新方法，在处理大量信息时，也可以更轻松、更高效地微调这些模型必须消耗更多的算力资源。

LongLoRA 大语言模型
基于LLaMA!开源模型Giraffe将LLaMA上下文窗口扩大10倍达3万个token

研究人员使用插值技术将开源语言模型LLaMA的上下文窗口从原来的约3，200个token扩大了10倍，达到约32，000个token，由此开发出新的开源语言模型Giraffe。该版本有130亿个参数版本，并且拥有所有开源LLM中最大的上下文窗口之一。开源的Giraffe-v2-13b-32k模型已在HuggingFace平台上线，代码也在GitHub上开源。

Giraffe 开源模型 LLaMA