首页 > 业界 > 关键词  > Giraffe最新资讯  > 正文

基于LLaMA!开源模型Giraffe将LLaMA上下文窗口扩大10倍 达3万个token

2023-08-25 11:39 · 稿源:站长之家

文章概要:

1. 研究人员扩展了开源 LLaMA 模型的上下文窗口,创建了 Giraffe,上下文窗口扩大10倍,达到约32,000个标记。

2. Giraffe适合需要处理数十页文本的商业应用,为大上下文语言模型研究提供了重要见解。

3.该研究还强调了当前技术的局限性以及定制测试的必要性,当前不足以衡量长上下文表现,需要定制测试。

站长之家(ChinaZ.com)8月25日 消息:最近,研究人员使用插值技术将开源语言模型LLaMA的上下文窗口从原来的约3,200个token扩大了10倍,达到约32,000个token,由此开发出新的开源语言模型Giraffe。该版本有130亿个参数版本,并且拥有所有开源 LLM 中最大的上下文窗口之一。

黑客攻击代码 电脑 互联网

Giraffe适用于需要处理数十页文本的各种商业应用场景。像GPT-3这样的语言模型上下文窗口有限,对长文本理解能力较弱。而Giraffe具有更大的“记忆”,能更好地处理这样的用例。

作为开源研究,Giraffe研究还提供了对语言模型内部运作以及不同的上下文窗口扩大技术的重要见解。研究发现,位置嵌入的线性缩放对增加上下文长度最为有效。

研究同时也凸显了当前技术的局限性,因为准确率会随上下文窗口增加而下降。这表明仅用困惑度来衡量语言模型的表现是不够的,对长上下文任务需要定制化的测试。

目前,开源的Giraffe-v2-13b-32k模型已在Hugging Face平台上线,代码也在GitHub上开源。

项目网址:

https://github.com/abacusai/Long-Context

https://huggingface.co/abacusai/Giraffe-v2-13b-32k

举报

  • 相关推荐
  • AI日报:月之暗面开源AI新框架Kosong;百度发布新模型ERNIE-4.5-VL;GPT-5.1“隐身”登场

    本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 科普 | 读懂HBM和DRAM,才懂AI算力未来

    在AI算力需求激增的背景下,存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术:SRAM凭借高速读写特性在CPU缓存中不可替代;DRAM作为数字世界的“主内存”,在容量与速度间实现平衡;HBM则通过3D堆叠架构革命性提升带宽,突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长,预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破,并开始布局HBM技术,正通过持续技术积累提升在全球半导体生态中的地位。

  • 华为Mate70 Air官宣今日开启预售

    华为Mate70 Air于11月6日正式发布,10:08开启预售。该机主打轻薄设计,机身厚度仅6.x毫米,为Mate系列最薄直板机。配备居中大圆镜头模组,后置四摄包括5000万主摄、800万超广角微距、1200万长焦防抖及150万光谱镜头,支持多种拍摄场景。屏幕采用7英寸临境大屏,分辨率2760*1320,支持AI+HDR显示。通信方面支持双向北斗消息、Wi-Fi7等功能,搭载麒麟9020系列处理器,提供流畅性能。拥有曜金黑、羽衣白、金丝银锦三款配色,保留实体SIM卡槽,预计将引发市场热潮。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • IBM翟峰:携手乌镇峰会共建AI生态,以开源开放解锁数智生产力

    2025年世界互联网大会乌镇峰会于11月6日至9日在浙江乌镇举行,聚焦“共建开放合作、安全普惠的数智未来”主题,探讨人工智能、数据治理等前沿议题。IBM大中华区技术专家翟峰参与人工智能模型论坛,强调AI是企业竞争关键,开源开放创新受业界青睐。IBM通过企业级AI平台watsonx、开源模型Granite及智能体解决方案,助力企业构建定制化AI能力,推动数字化转型。IBM致力于深耕中国市场,携手合作伙伴共促AI技术发展与产业升级。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

今日大家都在搜的词: