首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

匿名论文提出奇招,增强大模型长文本能力居然还能这么做

2024-02-04 08:48 · 稿源: 量子位公众号

一提到提高大模型长文本能力,就想到长度外推或者上下文窗口扩展?不行,这些都太费硬件资源了。来看一个奇妙新解:和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。具体办法就是建一个临时Lora模块,让它仅在长文本生成过程中“流式更新”,也就是用先

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 马斯克旗xAI推出Grok 4 宣称世界上最强大的AI模型

    据媒体报道,马斯克旗下人工智能公司xAI正式推出新一代旗舰模型Grok 4,并宣称其为世界上最强大的AI模型”。 该模型基于xAI的Colossus超级计算机训练,核心优势在于其深度推理能力,承诺带来显著增强的逻辑推理和文本生成水平。 此外,Grok 4还具备自然的人类对话风格、实时网络访问能力,以及对互联网文化(包括梗、俚语和幽默)的高精度理解。

  • 可灵AI推出可图2.1模型 多维能力跃升、会员限时7天免费

    可灵AI于7月10日上线可图2.1模型,图片生成能力全面升级:1)指令遵循能力显著提升,可精准捕捉复杂提示细节;2)新增180多种风格响应,支持特殊材质、数字艺术等创作需求;3)人像美感大幅优化,肌肤纹理与光影效果更自然;4)增强电影质感生成,能呈现大片级层次氛围;5)文字生成效果提升,支持中英文营销海报等设计。即日起面向会员免费开放7天,实测显示该模型在复杂场景还原和细节表现上达到新高度,累计已生成超3亿张图片。

  • “晓妙”产业大模型——AI驱动的产业变革

    7月4日,安徽数智建材研究院在长城工程科技会议上发布"晓秒"产业大模型。该模型由傲林科技投资支持,采用"1+1+N"架构,融合数据、机理和业务模型,实现生产运营全流程实时闭环优化。中国建材集团董事长周育先表示,该模型已在水泥板块试点应用,吨水泥成本降低1%以上,能耗电耗下降2%以上。会议指出,AI落地制造业需突破三大关键:建立数字化体系、夯实数据基础、实现工艺与数据融合。未来将拓展至新能源、钢铁等十余个行业,推动产业智能化升级。

  • 文生图大模型有哪些?探索AI绘画的核心引擎与选择利器

    本文探讨了当前主流的AI文生图技术及其应用场景。国际阵营中,OpenAI的DALL·E3擅长复杂语义理解,MidJourney以艺术风格见长,Stable Diffusion则以开源生态支持深度定制。中国力量方面,百度文心一格在中文语义和国风创作表现突出,阿里通义万相侧重商业化应用,昆仑万维天工支持长文本生成连贯图像。垂直领域工具如Adobe Firefly深度集成设计流程,Runway ML革新视频创作。文章建议通过聚合平台高效对比模型特性,并指出下一代技术将突破分辨率限制,实现跨模态生成。从精准语义到无限可能,AI文生图正在重塑视觉创作边界。

  • 当空间智能学会思考:飞渡科技“峥嵘大模型”重塑智慧城市新一代“运行内核”

    飞渡科技的"崑仑大模型"通过空间智能技术,构建了城市级数字底座,实现从物理世界到数字空间的映射。该技术已在智慧城市、智慧交通、低空经济、地下管网、灾害监测、文化保护等领域应用,推动城市治理从"被动应对"转向"主动预测"。在智慧交通领域实现毫秒级路网状态识别和动态信号优化;在地下管网实现毫米级泄漏预警;在低空经济构建超低空动态感知网络。该技术还应用于文化遗产数字化保护,通过三维建模留存历史建筑细节。飞渡科技表示,空间智能的价值在于共享,未来将与全球伙伴共建数字中国的空间智能新生态。

  • TDBC大会揭幕:百度智能云再造数据与AI新连接,激活大模型生命线

    中国通信标准化协会等机构联合主办的"TDBC2025可信数据库发展大会"在京召开。会上公布了上半年"可信数据库"评估测试结果,百度智能云向量数据库VectorDB成为国内首批完成测试的向量数据库产品。该测试覆盖稠密向量检索、多向量检索、标量向量融合检索三种场景,评估指标包括索引构建时间、QPS、延迟、资源占用等多个维度。百度智能云总架构师朱洁指出,超过50%的AI项目时间消耗在数据治理环节,提出构建"智能数据基座"实现数据统一管理,形成"Data+AI+App"闭环。百度智能云通过湖仓一体架构提升AI训练数据效率,智能调度CPU/GPU算力优化资源分配,预计到2028年多数生成式AI应用将直接基于企业数据平台构建。

  • 大模型时代企业查询第一站——水滴信用企业数据查询MCP

    水滴信用推出企业数据查询MCP平台,通过大模型技术实现企业数据查询的智能化升级。该平台整合3.7亿市场主体数据,覆盖工商、司法、知识产权等六大类1000+维度信息,支持自然语言交互和跨域关联分析。目前已应用于银行风控、证券投研、供应链管理等核心场景,显著提升商业决策效率。作为央行备案征信机构,水滴信用凭借权威数据源和专业团队,正推动企业征信服务进入AI普惠时代,降低高价值商业情报获取门槛,促进透明可信的商业环境形成。

  • AI大模型排名前十:谁主2025智能时代沉浮?

    本文介绍了当前全球最受瞩目的十大AI大模型及其特点。OpenAI的GPT-4系列以自然语言理解和多模态处理能力见长;Anthropic的Claude3系列擅长长文本分析和专业写作;Google的Gemini1.5具备强大的多模态处理能力;Meta的Llama3是性能强劲的开源模型;xAI的Grok系列擅长实时信息处理;Mistral AI以高效混合专家架构著称;Cohere专注企业级应用;Inflection Pi主打情感陪伴;中国的DeepSeek和通义千问在中文本地化方面表现突出。文章建议根据具体需求选择模型,并推荐使用专业平台进行模型对比。未来AI将向更长上下文、更自然的多模态交互等方向发展。

  • “科技+法治”融合创新!itc保伦股份全面助力重庆某司法局打造司法行政“最强大脑”

    重庆某司法局与ITC保伦股份合作打造"数字法治·智慧司法"指挥中心,通过无纸化会议系统、远程视频会议系统等智能化解决方案,实现司法行政工作数字化升级。系统具备国产化CPU、嵌入式操作系统等核心技术,确保数据安全;支持4K高清视频传输和智能中控,提升会议效率和应急指挥能力。项目实现了多系统联动管理,形成"司法大脑",助力司法行政工作高效开展,成为智慧司法建设的标杆案例。

  • 妈妈支持女儿暑假不报班在家做面包 力挺“热爱”最可贵

    ​近日,浙江一位12岁女孩龙龙的妈妈在社交平台分享了一段视频,引发网友关注。据悉,龙龙即将升入初中,面对即将到来的暑假,她没有选择参加各类补习班,而是向妈妈表达了想在家专心做面包的愿望。面对女儿的这一选择,龙龙的妈妈起初有些纠结,毕竟在多数家长眼中,暑假是提升学业、查漏补缺的黄金时期。 然而,在深入了解女儿的想法后,龙龙的妈妈发现,女�