首页 > 传媒 > 关键词  > 正文

一口气读完一本三体,Moonshot AI首个大模型产品支持20万字上下文

2023-10-10 14:11 · 稿源: 站长之家用户

        2023 年 10 月 9 日,成立仅半年的大模型初创公司 —— Moonshot AI宣布在“长文本”领域实现了突破,推出了首 个支持输入20万汉字的智能助手产品Kimi Chat。这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度,标志着Moonshot AI在这一重要技术上取得了领先水平。

       从技术上看,参数量决定了大模型支持多复杂的“计算”,而能够接收多少文本输入(即长文本技术)则决定了大模型有多大的“内存”,两者共同决定模型的应用效果。支持更长的上下文意味着大模型拥有更大的“内存”,从而使得大模型的应用更加深入和广泛:比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等,都可以在超长文本技术的加持下,成为我们工作和生活的一部分。

       相比当前市面上以英文为基础训练的大模型服务,Kimi Chat具备较强的多语言能力。例如,Kimi Chat在中文上具备显著优势,实际使用效果能够支持约 20 万汉字的上下文,2.5倍于Anthropic公司的Claude-100k(实测约8万字),8倍于OpenAI公司的GPT-4-32k(实测约2.5万字)。同时,Kimi Chat通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,不依赖于滑动窗口、降采样、小模型等对性能损害较大的“捷径”方案。

       目前,Moonshot AI 的智能助手产品Kimi Chat已开放了内测。

       大模型输入长度受限带来的应用困境

       当前大模型输入长度普遍较低的现状对其技术落地产生了极大制约,例如:

       目前大火的虚拟角色场景中,由于长文本能力不足,虚拟角色会轻易忘记重要信息,例如在Character AI的社区中用户经常抱怨“因为角色在多轮对话后忘记了自己的身份,所以不得不重新开启新的对话”。

       对于大模型开发者来说,输入prompt长度的限制约束了大模型应用的场景和能力的发挥,比如基于大模型开发剧本杀类游戏时,往往需要将数万字甚至超过十万字的剧情设定以及游戏规则作为prompt加入应用,如果模型输入长度不够,则只能削减规则和设定,从而无法达到预期游戏效果。

       在另一个大模型应用的主要方向——Agent中,由于Agent运行需要自动进行多轮规划和决策,且每次行动都需要参考历史记忆信息才能完成,这会带来了模型输入的快速增加,同时也意味着不能处理更长上下文的模型将因为无法全面准确的基于历史信息进行新的规划和决策从而降低Agent运行成功的概率。

       在使用大模型作为工作助理完成任务的过程中,几乎每个深度用户都遇到过输入长度超出限制的情况。尤其是律师、分析师、咨询师等职业的用户,由于常常需要分析处理较长的文本内容,使用大模型时受挫的情况发生频率极 高。

       而上述所有的问题在大模型拥有足够长的上下文输入后都将会迎刃而解。

       长文本打开大模型应用的新世界

       那么拥有超长上下文输入后的大模型会有怎样的表现?下面是一些Kimi Chat实际使用的例子:

       公众号的长文直接交给Kimi Chat ,让它帮你快速总结分析

       新鲜出炉的英伟达财报,交给Kimi Chat,快速完成关键信息分析:

       出差发票太多?全部拖进Kimi Chat,快速整理成需要的信息:

       发现了新的算法论文时,Kimi Chat能够直接帮你根据论文复现代码:

       只需要一个网址,就可以在Kimi Chat中和自己喜欢的原神角色聊天:

       输入整本《月亮与六便士》,让Kimi Chat和你一起阅读,帮助你更好的理解和运用书本中的知识:

       通过上述例子,我们可以看到,当模型可以处理的上下文变得更长后,大模型的能力能够覆盖到更多使用场景,真正在人们的工作、生活、学习中发挥作用,而且由于可以直接基于全文理解进行问答和信息处理,大模型生成的“幻觉”问题也可以得到很大程度的解决。

       不走捷径,解决算法和工程的双重挑战

       长文本技术的开发,存在一些对效果损害很大的“捷径”,主要包含以下几个方面:

       “金鱼”模型,特点是容易“健忘”。通过滑动窗口等方式主动抛弃上文,只保留对最 新输入的注意力机制。模型无法对全文进行完整理解,无法处理跨文档的比较和长文本的综合理解(例如,无法从一篇 10 万字的用户访谈录音转写中提取最有价值的 10 个观点)。

       “蜜蜂”模型,特点是只关注局部,忽略整体。通过对上下文的降采样或者RAG(检索增强的生成),只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解(例如,无法从 50 个简历中对候选人的画像进行归纳和总结)。

       “蝌蚪”模型,特点是模型能力尚未发育完整。通过减少参数量(例如减少到百亿参数)来提升上下文长度,这种方法会降低模型本身的能力,虽然能支持更长上下文,但是大量任务无法胜任。

       简单的捷径无法达到理想的产品化效果。为了真正做出可用、好用的产品,就不能走虚假的捷径,而应直面挑战。

       训练层面,想训练得到一个支持足够长上下文能力的模型,不可避免地要面对如下困难:

       如何让模型能在几十万的上下文窗口中,准确的 Attend 到所需要的内容,不降低其原有的基础能力?已有的类似滑动窗口和长度外推等技术对模型性能的损害比较大,在很多场景下无法实现真正的上下文。

       在千亿参数级别训练长上下文模型,带来了更高的算力需求和极严重的显存压力,传统的 3D 并行方案已经难以无法满足训练需求。

       缺乏充足的高质量长序列数据,如何提供更多的有效数据给模型训练?

       推理层面,在获得了支持超长上下文的模型后,如何让模型能服务众多用户,同样要面临艰巨挑战:

       Transformer模型中自注意力机制(Self Attention)的计算量会随着上下文长度的增加呈平方级增长,比如上下文增加 32 倍时,计算量实际会增长 1000 倍,这意味着如果只是用朴素的方式实现,用户需要等待极其长的时间才能获得反馈。

       超长上下文导致显存需求进一步增长:以 1750 亿参数的 GPT- 3 为例,目前最 高单机配置( 80 GiB * 8 )最多只能支持 64k 上下文长度的推理,超长文本对显存的要求可见一斑。

       极大的显存带宽压力:英伟达A800 或 H800 的显存带宽高达 2-3 TiB/s,但面对如此长的上下文,朴素方法的生成速度只能达到 2~5 tokens/s,使用的体验极其卡顿。

       Moonshot AI的技术团队进行了极 致的算法和工程优化,克服上述困难完成了大内存模型的产品化,发布了支持 20 万字输入的千亿参数LLM产品。

       “登月计划”第 一步:欢迎来到 Long LLM 时代

       Moonshot AI创始人杨植麟此前在接受采访时曾表示,无论是文字、语音还是视频,对海量数据的无损压缩可以实现高程度的智能。

       无损压缩的进展曾极度依赖「参数为王」模式,该模式下压缩比直接与参数量相关,这极大增加了模型的训练成本和应用门槛,而Moonshot AI认为:大模型的能力上限(即无损压缩比)是由单步能力和执行的步骤数共同决定的。单步能力与参数量正相关,而执行步骤数即上下文长度。

       Moonshot AI相信,更长的上下文长度可以为大模型应用带来全新的篇章,促使大模型从 LLM时代进入Long LLM (LLLM)时代:

       每个人都可以拥有一个具备终身记忆的虚拟伴侣,它可以在生命的长河中记住与你交互的所有细节,建立长期的情感连接。

       每个人都可以拥有一个在工作环境与你共生(co-inhabit)的助手,它知晓公域( 互联网)和私域(企业内部文档)的所有知识,并基于此帮助你完成OKR。

       每个人都可以拥有一个无所不知的学习向导,不仅能够准确的给你提供知识,更能够引导你跨越学科间的壁垒,更加自由的探索与创新。

       当然,更长的上下文长度只是Moonshot AI在下一代大模型技术上迈出的第 一步。Moonshot AI计划凭借该领域的领先技术,加速大模型技术的创新和应用落地。

       登月计划的伙伴说:

       Monolith砺思资本专注于新一代数字产业和科技智造领域的投资,是Moonshot AI第 一轮融资的 3 家投资机构之一,并一直以实际行动支持着公司发展。砺思资本创始合伙人曹曦表示,杨植麟是全球大模型领域里最被认可的华人技术专家,其团队在人工智能技术,特别是大语言模型LLM领域拥有深厚的技术积累,并已在国际上获得了广泛认可。眼下,美国硅谷的OpenAI和Anthropic等公司获得了多方关注,实际上在国内,拥有足够多技术储备的Moonshot AI也正成长为全球领先的AGI初创公司。多模态大模型是各家AI厂商竞争的关键领域,其中长文本输入技术更是其核心技术之一,Moonshot AI团队最 新发布的大模型和Kimi Chat在这方面实现了重要突破,并已成功应用于多个实际场景。砺思将继续加码并支持Moonshot AI团队在AGI领域大胆创新和技术突破,引领中国人工智能技术的未来发展。

       真格基金合伙人戴雨森对公司的发展表达了肯定和期许:“我们认为近期AI应用的爆火只是一场革命的序幕,AI技术要想真正改变世界创造巨大价值,在智能程度上还需要大的突破,这需要具备顶 级技术能力的团队,以坚持追寻Moonshot的勇气,持续挑战智能提升的边界。杨植麟作为XLNet等多项知名科研工作的第 一作者,具备非常丰富的科研和实践经验,多年来他一直坚信通过大模型实现对高维数据的压缩是人工智能发展的必经之路,也团结了一支人才密度超高,配合默契,又充满挑战巨头摇滚精神的创业团队。真格基金非常荣幸能够再次从天使轮开始支持杨植麟的新征程。”

       关于 Moonshot AI

       Moonshot AI 创立于 2023 年 3 月,致力于寻求将能源转化为智能的优解,通过产品与用户共创智能。创始团队核心成员参与了 Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发,多项核心技术被Google PaLM、Meta LLaMa、Stable Diffusion等主流产品采用。Moonshot AI 融资超 2 亿美元。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大四男生一口气收8个offer年薪20万 多家企业抛出橄榄枝

    ​近日,河南郑州高校圈内,大四学生小张的求职经历引发关注。临近毕业,当不少同学还在为工作四处奔波时,小张已手握8个来自不同企业的录用通知(offer)。 小张就读于郑州当地一所高校,他所收到的这些offer来自上海、武汉等地的央企和知名私企。在求职过程中,小张积极与各企业沟通,深入了解岗位详情和薪资待遇。其中一家公司的HR向他透露,入职后年薪可达20万

  • 《三体:大史》点燃粉丝,三体宇宙内容制作力正在“破壁中”

    ​6月23日,又一年上视节腾讯年度发布会如期而至。 从张艺谋监制的大剧《主角》,到亦舒IP《独身女人》,到正午阳光大作《开盘》,年度片单重磅不断,持续为暑期档升温;新生代导演上桌,经典IP的传承与焕新,一系列行业话题也引发了业界关注。 其中,千呼万唤始出来的《三体:大史》双人版概念海报,如一颗重磅炸弹,点燃了广大三体迷的期待与激情。据娱乐独角兽

  • 大模型都能冲清北了?首个AI高考总分评测结果出炉

    7家国产大模型参加2025年辽宁高考模拟测试,结果显示:腾讯元宝在文科考试中以667.5分夺冠,接近清北录取线;豆包、讯飞星火分别以655分和652分紧随其后,均达985高校水平。理科方面,豆包以635分领先,元宝和Kimi分别获得632.5分和629分。测试发现大模型在文科表现优于理科,尤其在语文作文和数学解题能力突出,元宝数学获得149分高分。但在理科综合科目存在短板,物理化学的解题过程和知识点推导不够完整,图像符号理解不足。相比去年,今年大模型整体能力显著提升,已从"文科一本、理科二本"水平进步到冲击顶尖高校的水平,展现了国产AI的快速发展。

  • 智能体时代,还得看豆包大模型

    火山引擎,又有大动作了。 2025年6月11日,火山引擎Force原动力大会发布豆包大模型1.6、视频生成模型Seedance1.0pro等重磅新模型,以及迭代了一站式AI云原生全栈服务。 对此,字节跳动CEO梁汝波表示:“做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。未来,字节跳动会坚定长期投入,追求智能突破,服务产业应用。通过火山引擎,持续把新模型、新�

  • 罗永浩数字人直播首秀:AI讲解近10万字 效果把老罗都吓一跳

    罗永浩数字人昨日在百度直播首秀、完美收官。 罗永浩今天分享了最新感受,直呼这数字人效果把自己都吓一跳。 我和萧木的两个数字人在那儿眉来眼去,讲着跟我一样风格的段子,有点恍惚但这就是现实。” 百度方面透露,这场直播中,由AI生成的剧本式产品讲解高达9.7万字,由AI驱动的数字人动作高达8300个。 罗永浩感慨:如果没有数字人,这得把我累成啥样!”

  • 思必驰RTOS大模型解决方案丨当玩具遇上AI,陪伴更有温度

    文章介绍了多款AI陪伴机器人产品,如LOVOT、Moflin、FoloToy等,它们通过创新交互方式引领消费新潮流。针对不同场景需求,思必驰推出RTOS大模型解决方案,融合智能对话技术与DFM-2大模型,整合第三方内容资源,赋予产品情感陪伴与寓教于乐功能。该方案具备智能打断、上下文记忆、多轮对话等能力,实现自然流畅的人机交互。在儿童教育领域,AI玩具可成为智慧伙伴,提供个性化学习支持。未来,AI赋能玩具将解锁更多应用场景,持续优化用户体验。

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • AI日报:夸克发布首个高考志愿大模型;Trae月活跃用户破100万;Manus推出免费无限聊天模式

    【AI日报】今日AI领域热点速览: 1. 夸克APP推出高考志愿大模型,免费提供个性化填报指导 2. Manus AI开放免费无限聊天模式,挑战行业巨头 3. Trae开发者平台月活破百万,累计交付60亿行代码 4. 迪士尼环球起诉Midjourney侵犯影视版权 5. 维基百科暂停AI生成摘要实验 6. 360发布"纳米AI超级搜索智能体",内置80多款大模型 7. PartCrafter项目实现单张图片生成高精度3D模型 8. Meta推出AI视频编辑工具,支持50多种预设效果 9. 阿里工程师放弃春节假期全力追赶DeepSeek技术 10. 火山引擎发布PromptPilot智能提示优化平台 11. OpenAI洽谈400亿美元融资,拓展AI生态系统 12. 新一代o3-pro推理模型发布并调整API定价策略

  • 2025年高考数学新一卷上热搜:6个AI大模型宣布挑战 谁更强?

    近日,随着高考的落幕,一场别样的“高考”也在各大AI大模型之间展开。此次测试邀请了多家知名科技公司的大模型,参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的表现。测试题目包括8道单选题、3道多选题和3道填空题,满分73分,测试过程严格遵循高考判分原则。 测试结果显示,字节跳动的豆包和腾讯的元宝(T1)以68分的总成绩�

  • 阿里巴巴发布全球首个胃癌影像筛查AI模型:CT就能识别早期胃癌

    浙江省肿瘤医院联合阿里巴巴达摩院,发布了全球首个胃癌影像筛查AI模型DAMO GRAPE。 该模型首次利用平扫CT影像识别早期胃癌病灶,并联合全国20家医院,在近10万人的大规模临床研究中大幅提升胃癌检出率。 相关论文在24日登上了国际顶级期刊《自然医学》(Nature Medicine)。 据国家癌症中心统计,我国每年新发胃癌约36万例,死亡26万例,死亡人数在所有恶性肿瘤中位列第�