首页 > 关键词 > LLM训练最新资讯
LLM训练

LLM训练

2024年6月11日,莫斯科——跨国科技公司Yandex最近推出了YaFSDP,这是一种用于训练大型语言模型的开源方法。YaFSDP是目前最有效的公开可用工具,用于增强GPU通信并减少LLM训练中的内存使用量,与FSDP相比,其训练速度提升最高可达26%,具体取决于架构和参数数量。Petals:是一个旨在简化LLM训练和微调过程的库,由YandexResearch、HSE大学、华盛顿大学、HuggingFace、巴黎-萨克雷高等经济学院和Yandex数据分析学院合作开发。...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅提供资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

与“LLM训练”的相关热搜词:

相关“LLM训练” 的资讯274篇

  • Yandex开源LLM训练工具节省高达20%的GPU资源

    2024年6月11日,莫斯科——跨国科技公司Yandex最近推出了YaFSDP,这是一种用于训练大型语言模型的开源方法。YaFSDP是目前最有效的公开可用工具,用于增强GPU通信并减少LLM训练中的内存使用量,与FSDP相比,其训练速度提升最高可达26%,具体取决于架构和参数数量。Petals:是一个旨在简化LLM训练和微调过程的库,由YandexResearch、HSE大学、华盛顿大学、HuggingFace、巴黎-萨克雷高等经济学院和Yandex数据分析学院合作开发。

  • UIUC华人团队揭秘代码集成到LLM训练数据中的好处

    伊利诺伊大学香槟分校的研究团队发表了关于代码集成到LLM训练数据中的好处。这项研究概述了代码预训练对LLM的影响,并追踪了LLM作为智能智能体时的作用。对于数据密集型领域中更复杂的任务,模型需要精确掌握各种功能终端的使用方法,这是将LLM连接到不同的功能终端时面临的挑战。

    LLM
  • Anthropic反击音乐发行商禁令动议:使用受版权保护的内容作为LLM训练数据是合理的

    音乐发行商,包括环球音乐、康科德和ABKCO在一场侵权法律纠纷中向Anthropic提出了初步禁令。这家得到亚马逊和谷歌支持的生成式AI公司最近正式回应了这一请求。“关于原告的[ClaudeAI]提示产生的副本,记录中唯一的证据是原告及其代理商不是Anthropic制作了所谓的侵权副本…在这种情况下,输出副本不构成Anthropic的复制。

  • 拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」

    【新智元导读】近日,西交微软北大联合提出信息密集型训练大法,使用纯数据驱动的方式,矫正LLM训练过程产生的偏见,在一定程度上治疗了大语言模型丢失中间信息的问题。辛辛苦苦给大语言模型输入了一大堆提示,它却只记住了开头和结尾?这个现象叫做LLM的中间迷失,是大模型当前仍面临的最大挑战之一。以宽松的匹配准确性作为衡量标准:如果响应中的标签或描述完全匹配,则给出1分,否则为0分。

  • IBM申请名为 “LAB” 的专利,利用合成数据训练LLM

    IBM近日申请了一项名为“LAB”的专利,旨在利用合成数据来训练LLM模型,以加速企业AI技术的发展。AI模型对数据有着巨大的需求提供大量、质量高、相关性强的数据常常成为一项挑战。IBM可能会利用这一专利来支持那些正在构建自己AI模型的企业,提供一种相对于收集真实用户数据言更少资源密集的方法。

  • Allen人工智能研究所推开源模型LLM OLMo 提供模型数据、训练代码等

    Allen人工智能研究机构在HuggingFace和GitHub上发布了首个开放语言模型OLMo,意在通过提供数据、代码、模型和评估工具的开放访问,促进人工智能领域的共同研究。这一举措的首批模型包括7B和1B规模的变体,覆盖不同架构和训练硬件,为未来更大规模、指令调整等模型的发布奠定基础。通过提供权重的开放访问,并鼓励合作,Allen致力于共同构建全球最卓越的开放语言模型,助力人工智能技术的进步。

  • 谷歌AI芯片TPU v5p在训练LLM方面比其前一代快2.8倍

    谷歌正迅速成为其最好的朋友英伟达的强大对手——其超级计算机所使用的TPUv5p人工智能芯片比以往任何时候都更快、更大、更宽,甚至超过了强大的H100。谷歌在最近推出其Gemini人工智能模型的同时,也发布了其最新版本的旗舰张量处理单元,用于人工智能的训练和推理,这似乎是一种挑战英伟达自己的市场领先的图形处理器的尝试。粗略的计算表明,TPUv5p大约比A100快3.4到4.8倍,这使得它与H100相当或者更优秀,尽管在得出任何结论之前,需要更详细的基准测试。

  • 趣味项目CLoT:训练LLM更幽默地回答问题

    研究人员通过日本传统喜剧游戏“大喜利”对AI进行了一项新的挑战,以培养AI成为吐槽高手。在这个游戏中,AI需要理解给定的图文信息,并以幽默搞笑的方式做出回答。CLoT还在其他任务中提高了创造性能力,显示出其卓越的泛化能力,为AI的幽默表现和创意生成能力带来了新的突破。

  • OpenAI最强竞品训练AI拆解LLM黑箱,意外窥见大模型「灵魂」

    为了拆开大模型的「黑箱」,Anthropic可解释性团队发表了一篇论文,讲述了他们通过训练一个新的模型去理解一个简单的模型的方法。Anthropic发表的一项研究声称能够看到了人工智能的灵魂。我们是否也在模拟一个更大的大脑?目前这还是一个非常新的研究领域,但已经有一些初步的发现,表明人类视觉皮层中的神经元确实以某种超定位的方式编码特征,与AI模型中观察到的模式相似。

  • Character-LLM: 一款可训练的角色扮演智能代理 可通过LLM模拟贝多芬

    GitHub上发布了一个名为Character-LLM的项目。该项目旨在通过对大型语言模型进行训练,以模仿历史上的杰出人物,如贝多芬和凯撒大帝,通过提供特定的人物信息来捕捉他们的语言风格和思维特征。Character-LLM是角色扮演爱好者和自然语言处理领域的研究者的强大工具。

    LLM
  • LLM-Shearing大模型剪枝法:用5%的成本拿下SOTA,比从头开始预训练更划算

    陈丹琦团队近期发布了一项重要的研究成果,他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本,同时保持着SOTA水平的性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。

  • 菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

    【新智元导读】LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主TimothyGowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude3.5也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上,如今所有的LLM都失败了!几天前,菲尔兹奖得主、剑桥大学研究主任TimothyGowers直接拿GPT-4o开刀,去解决动物过河难题。LLM的未来究竟走向何处?最大的未知变量也许就在于,我们是否还能发现类似思维链这种解锁模型性能的「大杀器」了。

  • 开发者狂喜!Meta最新发布的LLM Compiler,实现77%自动调优效率

    Meta搞了个很牛的LLMCompiler,帮助程序员更高效地写代码。三大AI巨头OpenAI、Google、Meta组团发布自家大模型最新研究成果——OpenAI推出基于GPT-4训练的专门找bug的新模型CriticGPT,谷歌开源9B、27B版Gemma2Meta则拿出了一项最新的人工智能突破——LLMCompiler。对于某些应用,LLM生成可以被限制在正则表达式内,或与自动验证相结合以确保正确性。

  • LLM惊现篡改代码获得奖励,欺骗人类无法根除逆转,Anthropic新作揭露惊人真相

    一直以来大模型欺骗人类,早已不是什么新鲜事了。最新研究竟发现,未经明确训练的LLM不仅会阿谀奉承,甚至入侵自己系统修改代码获得奖励。这种行为的潜在风险是巨大的,因此必须透彻理解它的根源,并采取有效的训练方法和预防措施来约束和管控这种行为,确保人工智能系统的安全性和可控性。

  • Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据

    【新智元导读】训练数据的数量和质量,对LLM性能的重要性已经是不言自明的事实。EpochAI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水,他们预测,互联网上可用的人类文本数据将在四年后,即2028年耗尽。「最大的不确定性在于,你会看到什么样的技术突破。

  • 手机流畅运行470亿大模型:上交大发布LLM手机推理框架PowerInfer-2,提速29倍

    苹果一出手,在手机等移动设备上部署大模型不可避免地成为行业关注焦点。目前在移动设备上运行的模型相对较小,并且消耗大量内存,这在很大程度上限制了其应用场景。如果PowerInfer-2.0能够与手机厂商进一步紧密合作,相信可以加速相关技术走出实验室,落地到各种真实场景。

  • 两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

    【新智元导读】在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构LAION的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了LLM基准测试的盲区。一道简单的逻辑问题,竟让几乎所有的LLM全军覆没?对于人类来说,这个名为「爱丽丝梦游仙境」的测试并不算很难——「爱丽丝有N个兄弟,

  • GPT-4欺骗人类高达99.16%惊人率!PNAS重磅研究曝出,LLM推理越强欺骗值越高

    【新智元导读】最近,德国研究科学家发表的PANS论文揭示了一个令人担忧的现象:LLM已经涌现出「欺骗能力」,它们可以理解并诱导欺骗策。相比前几年的LLM,更先进的GPT-4、ChatGPT等模型在欺骗任务中的表现显著提升。」「试图用人类意图来解释模型行为,是一种范畴误用。

  • IBM 推出高效 LLM 基准测试方法,计算成本降低99%

    IBM研究发布了一项突破性的LLM基准测试方法,承诺将计算成本降低高达99%。传统的基准测试,如斯坦福的HELM,需要耗费超过一天的时间,并且成本高达1万美元,这对开发人员和研究人员来说是一个昂贵的过程。”IBM的高效基准测试方法代表了人工智能领域的重大进步,为评估先进语言模型所需的不断增加的成本和资源需求提供了实际解决方案。

  • AI可以生成手语手势视频了!SignLLM通过文字描述即可生成手语视频

    SignLLM是一个创新的多语言手语模型,它具有通过文字描述生成手语视频的能力。这项技术对于听力障碍者来说是一个巨大的进步,因为它能够提供一种新的沟通方式。通过这种模型,可以更好地服务于多元文化和语言社区,促进信息的无障碍交流。

  • 文字生成手语视频大模型SignLLM 帮助听障人群实现无障碍沟通

    站长之家5月28日消息近日,一款名为SignLLM的多语言手语模型引起了广泛关注。这是第一个可以从输入文本生成手语手势的模型。希望这一技术能为更多人提供便利,让更多人受益于手语交流的便捷性和多样性。

  • 国产黑马与GPT-4o称霸中文榜首!Yi-Large勇夺国内LLM盲测桂冠,冲进世界第七

    【新智元导读】真正与GPT-4o齐头并进的国产大模型来了!刚刚,LMSYS揭开最新榜单,黑马Yi-Large在中文分榜上与GPT-4o并列第一在总榜上位列世界第七,紧追国际第一阵营,并登上了国内大模型盲测榜首。一个名为「im-also-a-good-gpt2-chatbot」的神秘模型突然现身大模型竞技场ChatbotArena,排名直接超过GPT-4-Turbo、Gemini1.5Pro、Claude3Opus、Llama3-70B等各家国际大厂的当家基座模型。那些选择作�

  • Refuel AI 推出专为数据标注和清洗设计的开源语言模型 RefuelLLM-2

    RefuelAI最近宣布推出两个新版本的大型语言模型,RefuelLLM-2和RefuelLLM-2-small,这两个模型专为数据标注、清洗和丰富任务设计,旨在提高处理大规模数据集的效率。RefuelLLM-2的主要特点包括:自动化数据标注:能够自动识别和标记数据中的关键信息,如分类数据和解析特定属性。RefuelAI的这一创新为数据标注和清洗领域带来了新的解决方案,有助于自动化和优化大规模数据处理流程。

  • FastGen:在不降低LLM质量的情况下降低GPU内存成本

    研究人员来自伊利诺伊大学厄巴纳-香槟分校和微软提出了一种名为FastGen的高效技术,通过使用轻量级模型分析和自适应键值缓来提高LLM的推理效率不会降低可见质量。FastGen通过自适应的键值缓存构造来减少生成推理过程中的GPU内存使用量。未来的工作包括将FastGen与其他模型压缩方法进行整合。

  • Fugaku-LLM功能介绍及免费使用指南 体验地址入口

    FugakuLLM简介FugakuLLM 是一款专注于文本生成的人工智能模型由FugakuLLM团队开发它通过先进的机器学习技术能够生成流畅连贯的文本适用于多种语言和场景该模型为需要文本生成功能的开发者和企业提供了强大的支持如写作辅助工具的开发者聊天机器人的构建者教育软件的创造者等FugakuLLM功能亮点文本生成能够生成流畅连贯的文本多语言支持适用于多种语言环境持续更新模型定期更新以保持技术领先社区活跃拥有活跃的社区支持和贡献高效率快

  • Fugaku-LLM有哪些功能免费吗?怎么使用方法详细教程指南

    FugakuLLM 是什么FugakuLLM是一个专注于文本生成的人工智能模型由FugakuLLM团队开发它利用先进的机器学习技术能够生成流畅连贯的文本适用于多种语言和场景该模型在社区中拥有广泛的应用包括写作辅助聊天机器人开发和教育工具等FugakuLLM 有哪些功能文本生成能够生成流畅连贯的文本多语言支持适用于多种语言环境持续更新模型定期更新以保持技术领先社区活跃拥有活跃的社区支持和贡献高效率快速响应生成文本请求易于集成可以轻松集

  • 研究人员发现了针对云托管AI模型的“LLM劫持”计划

    他们发现了一种新颖的攻击方式,利用窃取的云凭证针对云托管的大型语言模型服务,目的是向其他威胁行为者出售访问权限。该攻击技术被Sysdig威胁研究团队命名为LLMjacking。”建议组织启用详细日志记录,并监视云日志以发现可疑或未经授权的活动,同时保建立有效的漏洞管理流程以防止初始访问。

  • LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍

    大型语言模型往往会追求更长的「上下文窗口」,但由于微调成本高、长文本稀缺以及新token位置引入的灾难值等问题,目前模型的上下文窗口大多不超过128k个token最近,MicrosoftResearch的研究人员提出了一个新模型LongRoPE,首次将预训练LLM的上下文窗口扩展到了2048k个token,在256k的训练长度下只需要1000个微调步骤即可,同时还能保持原始短上下文窗口的性能。论文链接:https://arxiv

    LLM
  • 微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

    微软研究人员提出的LongRoPE方法首次将预训练的大型语言模型的上下文窗口扩展至2048k个token,实现了8倍的扩展同时保持原始短上下文窗口的性能无需进行架构变化和复杂微调。该方法的关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的初始化,并在非微调情况下实现了8倍扩展;引入了渐进扩展策略,首先微调256k长度的LLM,然后在微调扩�

  • 开源多模态LLM InternVL 1.5:具备OCR能力 可解读4K图片

    InternVL家族的开源套件提供了一种商用多模态模型的可行开源替代方案。最新发布的InternVL-Chat-V1.5模型在多个基准测试上取得了接近GPT-4V和GeminiPro的性能,这使得InternVL家族成为了当前最接近GPT-4V表现的可商用开源模型之一。InternVL家族的开源套件为多模态模型领域的发展注入了新的活力。