一口气读完一本三体，Moonshot AI大模型产品支持20万字上下文

2023-10-10 14:11 · 稿源：站长之家用户

2023 年 10 月 9 日，成立仅半年的大模型初创公司 —— Moonshot AI宣布在“长文本”领域实现了突破，推出了首个支持输入20万汉字的智能助手产品Kimi Chat。这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度，标志着Moonshot AI在这一重要技术上取得了领先水平。

从技术上看，参数量决定了大模型支持多复杂的“计算”，而能够接收多少文本输入（即长文本技术）则决定了大模型有多大的“内存”，两者共同决定模型的应用效果。支持更长的上下文意味着大模型拥有更大的“内存”，从而使得大模型的应用更加深入和广泛：比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等，都可以在超长文本技术的加持下，成为我们工作和生活的一部分。

相比当前市面上以英文为基础训练的大模型服务，Kimi Chat具备较强的多语言能力。例如，Kimi Chat在中文上具备显著优势，实际使用效果能够支持约 20 万汉字的上下文，2.5倍于Anthropic公司的Claude-100k（实测约8万字），8倍于OpenAI公司的GPT-4-32k（实测约2.5万字）。同时，Kimi Chat通过创新的网络结构和工程优化，在千亿参数下实现了无损的长程注意力机制，不依赖于滑动窗口、降采样、小模型等对性能损害较大的“捷径”方案。

目前，Moonshot AI 的智能助手产品Kimi Chat已开放了内测。

大模型输入长度受限带来的应用困境

当前大模型输入长度普遍较低的现状对其技术落地产生了极大制约，例如：

目前大火的虚拟角色场景中，由于长文本能力不足，虚拟角色会轻易忘记重要信息，例如在Character AI的社区中用户经常抱怨“因为角色在多轮对话后忘记了自己的身份，所以不得不重新开启新的对话”。

对于大模型开发者来说，输入prompt长度的限制约束了大模型应用的场景和能力的发挥，比如基于大模型开发剧本杀类游戏时，往往需要将数万字甚至超过十万字的剧情设定以及游戏规则作为prompt加入应用，如果模型输入长度不够，则只能削减规则和设定，从而无法达到预期游戏效果。

在另一个大模型应用的主要方向——Agent中，由于Agent运行需要自动进行多轮规划和决策，且每次行动都需要参考历史记忆信息才能完成，这会带来了模型输入的快速增加，同时也意味着不能处理更长上下文的模型将因为无法全面准确的基于历史信息进行新的规划和决策从而降低Agent运行成功的概率。

在使用大模型作为工作助理完成任务的过程中，几乎每个深度用户都遇到过输入长度超出限制的情况。尤其是律师、分析师、咨询师等职业的用户，由于常常需要分析处理较长的文本内容，使用大模型时受挫的情况发生频率极高。

而上述所有的问题在大模型拥有足够长的上下文输入后都将会迎刃而解。

长文本打开大模型应用的新世界

那么拥有超长上下文输入后的大模型会有怎样的表现？下面是一些Kimi Chat实际使用的例子：

公众号的长文直接交给Kimi Chat ，让它帮你快速总结分析

新鲜出炉的英伟达财报，交给Kimi Chat，快速完成关键信息分析：

出差发票太多？全部拖进Kimi Chat，快速整理成需要的信息：

发现了新的算法论文时，Kimi Chat能够直接帮你根据论文复现代码：

只需要一个网址，就可以在Kimi Chat中和自己喜欢的原神角色聊天：

输入整本《月亮与六便士》，让Kimi Chat和你一起阅读，帮助你更好的理解和运用书本中的知识：

通过上述例子，我们可以看到，当模型可以处理的上下文变得更长后，大模型的能力能够覆盖到更多使用场景，真正在人们的工作、生活、学习中发挥作用，而且由于可以直接基于全文理解进行问答和信息处理，大模型生成的“幻觉”问题也可以得到很大程度的解决。

不走捷径，解决算法和工程的双重挑战

长文本技术的开发，存在一些对效果损害很大的“捷径”，主要包含以下几个方面：

“金鱼”模型，特点是容易“健忘”。通过滑动窗口等方式主动抛弃上文，只保留对最新输入的注意力机制。模型无法对全文进行完整理解，无法处理跨文档的比较和长文本的综合理解（例如，无法从一篇 10 万字的用户访谈录音转写中提取最有价值的 10 个观点）。

“蜜蜂”模型，特点是只关注局部，忽略整体。通过对上下文的降采样或者RAG（检索增强的生成），只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解（例如，无法从 50 个简历中对候选人的画像进行归纳和总结）。

“蝌蚪”模型，特点是模型能力尚未发育完整。通过减少参数量（例如减少到百亿参数）来提升上下文长度，这种方法会降低模型本身的能力，虽然能支持更长上下文，但是大量任务无法胜任。

简单的捷径无法达到理想的产品化效果。为了真正做出可用、好用的产品，就不能走虚假的捷径，而应直面挑战。

训练层面，想训练得到一个支持足够长上下文能力的模型，不可避免地要面对如下困难：

如何让模型能在几十万的上下文窗口中，准确的 Attend 到所需要的内容，不降低其原有的基础能力？已有的类似滑动窗口和长度外推等技术对模型性能的损害比较大，在很多场景下无法实现真正的上下文。

在千亿参数级别训练长上下文模型，带来了更高的算力需求和极严重的显存压力，传统的 3D 并行方案已经难以无法满足训练需求。

缺乏充足的高质量长序列数据，如何提供更多的有效数据给模型训练？

推理层面，在获得了支持超长上下文的模型后，如何让模型能服务众多用户，同样要面临艰巨挑战：

Transformer模型中自注意力机制（Self Attention）的计算量会随着上下文长度的增加呈平方级增长，比如上下文增加 32 倍时，计算量实际会增长 1000 倍，这意味着如果只是用朴素的方式实现，用户需要等待极其长的时间才能获得反馈。

超长上下文导致显存需求进一步增长：以 1750 亿参数的 GPT- 3 为例，目前最高单机配置( 80 GiB * 8 )最多只能支持 64k 上下文长度的推理，超长文本对显存的要求可见一斑。

极大的显存带宽压力：英伟达A800 或 H800 的显存带宽高达 2-3 TiB/s，但面对如此长的上下文，朴素方法的生成速度只能达到 2~5 tokens/s，使用的体验极其卡顿。

Moonshot AI的技术团队进行了极致的算法和工程优化，克服上述困难完成了大内存模型的产品化，发布了支持 20 万字输入的千亿参数LLM产品。

“登月计划”第一步：欢迎来到 Long LLM 时代

Moonshot AI创始人杨植麟此前在接受采访时曾表示，无论是文字、语音还是视频，对海量数据的无损压缩可以实现高程度的智能。

无损压缩的进展曾极度依赖「参数为王」模式，该模式下压缩比直接与参数量相关，这极大增加了模型的训练成本和应用门槛，而Moonshot AI认为：大模型的能力上限（即无损压缩比）是由单步能力和执行的步骤数共同决定的。单步能力与参数量正相关，而执行步骤数即上下文长度。

Moonshot AI相信，更长的上下文长度可以为大模型应用带来全新的篇章，促使大模型从 LLM时代进入Long LLM (LLLM)时代：

每个人都可以拥有一个具备终身记忆的虚拟伴侣，它可以在生命的长河中记住与你交互的所有细节，建立长期的情感连接。

每个人都可以拥有一个在工作环境与你共生（co-inhabit）的助手，它知晓公域（互联网）和私域（企业内部文档）的所有知识，并基于此帮助你完成OKR。

每个人都可以拥有一个无所不知的学习向导，不仅能够准确的给你提供知识，更能够引导你跨越学科间的壁垒，更加自由的探索与创新。

当然，更长的上下文长度只是Moonshot AI在下一代大模型技术上迈出的第一步。Moonshot AI计划凭借该领域的领先技术，加速大模型技术的创新和应用落地。

登月计划的伙伴说：

Monolith砺思资本专注于新一代数字产业和科技智造领域的投资，是Moonshot AI第一轮融资的 3 家投资机构之一，并一直以实际行动支持着公司发展。砺思资本创始合伙人曹曦表示，杨植麟是全球大模型领域里最被认可的华人技术专家，其团队在人工智能技术，特别是大语言模型LLM领域拥有深厚的技术积累，并已在国际上获得了广泛认可。眼下，美国硅谷的OpenAI和Anthropic等公司获得了多方关注，实际上在国内，拥有足够多技术储备的Moonshot AI也正成长为全球领先的AGI初创公司。多模态大模型是各家AI厂商竞争的关键领域，其中长文本输入技术更是其核心技术之一，Moonshot AI团队最新发布的大模型和Kimi Chat在这方面实现了重要突破，并已成功应用于多个实际场景。砺思将继续加码并支持Moonshot AI团队在AGI领域大胆创新和技术突破，引领中国人工智能技术的未来发展。

真格基金合伙人戴雨森对公司的发展表达了肯定和期许：“我们认为近期AI应用的爆火只是一场革命的序幕，AI技术要想真正改变世界创造巨大价值，在智能程度上还需要大的突破，这需要具备顶级技术能力的团队，以坚持追寻Moonshot的勇气，持续挑战智能提升的边界。杨植麟作为XLNet等多项知名科研工作的第一作者，具备非常丰富的科研和实践经验，多年来他一直坚信通过大模型实现对高维数据的压缩是人工智能发展的必经之路，也团结了一支人才密度超高，配合默契，又充满挑战巨头摇滚精神的创业团队。真格基金非常荣幸能够再次从天使轮开始支持杨植麟的新征程。”

关于 Moonshot AI

Moonshot AI 创立于 2023 年 3 月，致力于寻求将能源转化为智能的优解，通过产品与用户共创智能。创始团队核心成员参与了 Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发，多项核心技术被Google PaLM、Meta LLaMa、Stable Diffusion等主流产品采用。Moonshot AI 融资超 2 亿美元。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐微软亚研院新作：让大模型一口气调用数百万个API！

人工智能发展迅速，尤其是像ChatGPT这样的基础大模型，在对话、上下文理解和代码生成等方面表现出色，能够为多种任务提供解决方案。但在特定领域任务上，由于专业数据的缺乏和可能的计算错误，它们的表现并不理想。这包括降低扩展成本和使用少量示例来学习用户的偏好，以便生成符合用户需求的解决方案。

大模型
AI21发布世界首个Mamba的生产级模型Jamba 支持256K上下文长度

AI21发布了世界首个Mamba的生产级模型:Jamba。这个模型采用了开创性的SSM-Transformer架构，具有52B参数，其中12B在生成时处于活动状态。这意味着Jamba模型在处理需要理解大量文本和复杂依赖关系的任务时，既能保持高效率，又不会牺牲性能或精度。

Jamba AI头条
首个开源世界模型LWM ：百万级上下文，长视频理解超GPT-4

来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型，被称为LWM系列模型。这一模型采用了大量视频和书籍数据集，通过RingAttention技术实现了长序列的可扩展训练，使得模型的上下文长度达到了1Mtoken。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与，为人工智能领域的进步和创新带来了新的契机。

LWM GPT-4 AI头条
360智脑7B参数大模型正式开源最长支持约50万字输入

360公司自主研发的7B参数大模型——360智脑，现已正式上线开源社区，并提供了基础模型以及4K、32K、360K三种不同文本长度的版本。这一大模型在支持文本长度方面表现出色，最长可处理360K长文本，相当于约50万字的输入内容。在中英文360K大海捞针效果测试中，也取得了超过98%的高分。

大模型文本长度开源社区
中国首个音乐SOTA模型「天工音乐大模型」今日公测

2024年4月17日，在「天工」大模型一周年之际，昆仑万维重磅宣布，「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测!一年前的今天，第一版天工大模型正式对外发布上线，一年来我们不断迭代模型，迭代应用产品，模型和应用都越做越好，以此回报广大用户的支持。「天工」系列大模型已集成了AI音乐、AI搜索、AI写作、AI长文本阅读、AI画图、AI语音合成、AI漫画创作、AI图片识别、AI代码写作、AI表格生成等多项能力，并将在未来加入AI视频功能，对标“超级应用”，成为人工智能时代的“超级大模型”。在“实现通用人工智能，让每个人更好地塑造和表达自我”的公司使命驱动下，昆仑万维将始终致力于AI技术与产品的创新开拓，不断提高AI产品的用户体验，与用户、研究人员、开发者们携手，共创国产大模型的未来。

天工3.0 大模型公测
荐今日AI：全球最强开源模型一夜易主；清明节前AI复活亲人成热门生意；Heygen 数字人连动作姿态都能复制了；大模型一口气可调用数百万个API

欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/📰🤖📢AI新鲜事DBRX抢占开源大模型王座编程、数学等领域超越GPT-3.5Claude3再次登顶！化学专业一骑绝尘，全面碾压GPT-4清明节前AI复活亲人成热门生意:几十元到上百元不等微软亚�

DBRX
X AI 发布Grok-1.5更新：性能显著提升支持128K上下文长度

XAI发布了其最新的大型语言模型更新——Grok-1.5。该版本在编码和与数学相关的任务中表现出了显著的性能提升。我们期待看到这些新功能在未来几天的发布，以及它们将如何改变我们对大型语言模型的认知和使用。

Grok1.5 AI头条
万字梳理中国AIGC产业峰会激辩，大模型应用最全行业参考在此

在中国AIGC产业峰会的现场，20位大咖展开激辩。从软件应用、智能终端乃至具身智能等，AIGC正在全面席卷，「你好，新应用!」成为本届AIGC峰会主题。徐栋也认为，“百模大战”并非完全铺张浪费，它培养了人才队伍，积累了模型和数据方面的经验，我们也欢迎非同质化的模型的竞争，这些培养的人才、积累的经验也会帮助大模型落地到千行百业，对未来AIGC的商业化大有裨益�
360周鸿祎：将开源360智脑7B模型支持 50 万字输入

360创始人周鸿祎公开宣布了一个重要决定:即将开源360智脑7B模型，该模型具备70亿参数，并支持长达360k的文本输入。周鸿祎自称为“开源的信徒”，坚信开源的力量，并认为此举可以避免行业内的重复劳动，推动技术进步。阿里通义千问更是宣布免费开放1000万字长文档处理功能，进一步推动了长文本处理技术的发展。

360智脑7B模型 360AI浏览器开源技术
WPS AI企业版发布：多个大模型自由切换调用

金山办公推出的WPS365是一款面向组织和企业的综合性办公解决方案，它包含了升级的WPSOffice、最新发布的WPSAI企业版和WPS协作，旨在为企业提供一站式数字办公体验。WPSAI企业版是该方案的核心组件之一，它由AIHub、AIDocs和CopilotPro三部分构成，全面展现了金山办公在人工智能领域的技术积累和创新实力。WPS协作还强调了相关平台的信创优势”，为企业提供了更加安全可靠的办公解决方案。

金山办公 WPS 365

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

一口气读完一本三体，Moonshot AI大模型产品支持20万字上下文

今日大家都在搜的词：

热文

站长商机