首页 > 关键词 > LLM训练最新资讯
LLM训练

LLM训练

伊利诺伊大学香槟分校的研究团队发表了关于代码集成到LLM训练数据中的好处。这项研究概述了代码预训练对LLM的影响,并追踪了LLM作为智能智能体时的作用。对于数据密集型领域中更复杂的任务,模型需要精确掌握各种功能终端的使用方法,这是将LLM连接到不同的功能终端时面临的挑战。...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅提供资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

与“LLM训练”的相关热搜词:

相关“LLM训练” 的资讯256篇

  • UIUC华人团队揭秘代码集成到LLM训练数据中的好处

    伊利诺伊大学香槟分校的研究团队发表了关于代码集成到LLM训练数据中的好处。这项研究概述了代码预训练对LLM的影响,并追踪了LLM作为智能智能体时的作用。对于数据密集型领域中更复杂的任务,模型需要精确掌握各种功能终端的使用方法,这是将LLM连接到不同的功能终端时面临的挑战。

    LLM
  • Anthropic反击音乐发行商禁令动议:使用受版权保护的内容作为LLM训练数据是合理的

    音乐发行商,包括环球音乐、康科德和ABKCO在一场侵权法律纠纷中向Anthropic提出了初步禁令。这家得到亚马逊和谷歌支持的生成式AI公司最近正式回应了这一请求。“关于原告的[ClaudeAI]提示产生的副本,记录中唯一的证据是原告及其代理商不是Anthropic制作了所谓的侵权副本…在这种情况下,输出副本不构成Anthropic的复制。

  • IBM申请名为 “LAB” 的专利,利用合成数据训练LLM

    IBM近日申请了一项名为“LAB”的专利,旨在利用合成数据来训练LLM模型,以加速企业AI技术的发展。AI模型对数据有着巨大的需求提供大量、质量高、相关性强的数据常常成为一项挑战。IBM可能会利用这一专利来支持那些正在构建自己AI模型的企业,提供一种相对于收集真实用户数据言更少资源密集的方法。

  • Allen人工智能研究所推开源模型LLM OLMo 提供模型数据、训练代码等

    Allen人工智能研究机构在HuggingFace和GitHub上发布了首个开放语言模型OLMo,意在通过提供数据、代码、模型和评估工具的开放访问,促进人工智能领域的共同研究。这一举措的首批模型包括7B和1B规模的变体,覆盖不同架构和训练硬件,为未来更大规模、指令调整等模型的发布奠定基础。通过提供权重的开放访问,并鼓励合作,Allen致力于共同构建全球最卓越的开放语言模型,助力人工智能技术的进步。

  • 谷歌AI芯片TPU v5p在训练LLM方面比其前一代快2.8倍

    谷歌正迅速成为其最好的朋友英伟达的强大对手——其超级计算机所使用的TPUv5p人工智能芯片比以往任何时候都更快、更大、更宽,甚至超过了强大的H100。谷歌在最近推出其Gemini人工智能模型的同时,也发布了其最新版本的旗舰张量处理单元,用于人工智能的训练和推理,这似乎是一种挑战英伟达自己的市场领先的图形处理器的尝试。粗略的计算表明,TPUv5p大约比A100快3.4到4.8倍,这使得它与H100相当或者更优秀,尽管在得出任何结论之前,需要更详细的基准测试。

  • 趣味项目CLoT:训练LLM更幽默地回答问题

    研究人员通过日本传统喜剧游戏“大喜利”对AI进行了一项新的挑战,以培养AI成为吐槽高手。在这个游戏中,AI需要理解给定的图文信息,并以幽默搞笑的方式做出回答。CLoT还在其他任务中提高了创造性能力,显示出其卓越的泛化能力,为AI的幽默表现和创意生成能力带来了新的突破。

  • OpenAI最强竞品训练AI拆解LLM黑箱,意外窥见大模型「灵魂」

    为了拆开大模型的「黑箱」,Anthropic可解释性团队发表了一篇论文,讲述了他们通过训练一个新的模型去理解一个简单的模型的方法。Anthropic发表的一项研究声称能够看到了人工智能的灵魂。我们是否也在模拟一个更大的大脑?目前这还是一个非常新的研究领域,但已经有一些初步的发现,表明人类视觉皮层中的神经元确实以某种超定位的方式编码特征,与AI模型中观察到的模式相似。

  • Character-LLM: 一款可训练的角色扮演智能代理 可通过LLM模拟贝多芬

    GitHub上发布了一个名为Character-LLM的项目。该项目旨在通过对大型语言模型进行训练,以模仿历史上的杰出人物,如贝多芬和凯撒大帝,通过提供特定的人物信息来捕捉他们的语言风格和思维特征。Character-LLM是角色扮演爱好者和自然语言处理领域的研究者的强大工具。

    LLM
  • LLM-Shearing大模型剪枝法:用5%的成本拿下SOTA,比从头开始预训练更划算

    陈丹琦团队近期发布了一项重要的研究成果,他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本,同时保持着SOTA水平的性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。

  • LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍

    大型语言模型往往会追求更长的「上下文窗口」,但由于微调成本高、长文本稀缺以及新token位置引入的灾难值等问题,目前模型的上下文窗口大多不超过128k个token最近,MicrosoftResearch的研究人员提出了一个新模型LongRoPE,首次将预训练LLM的上下文窗口扩展到了2048k个token,在256k的训练长度下只需要1000个微调步骤即可,同时还能保持原始短上下文窗口的性能。论文链接:https://arxiv

    LLM
  • 微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

    微软研究人员提出的LongRoPE方法首次将预训练的大型语言模型的上下文窗口扩展至2048k个token,实现了8倍的扩展同时保持原始短上下文窗口的性能无需进行架构变化和复杂微调。该方法的关键创新点包括通过高效搜索识别并利用了位置插值中的两种非均匀性,为微调提供更好的初始化,并在非微调情况下实现了8倍扩展;引入了渐进扩展策略,首先微调256k长度的LLM,然后在微调扩�

  • 开源多模态LLM InternVL 1.5:具备OCR能力 可解读4K图片

    InternVL家族的开源套件提供了一种商用多模态模型的可行开源替代方案。最新发布的InternVL-Chat-V1.5模型在多个基准测试上取得了接近GPT-4V和GeminiPro的性能,这使得InternVL家族成为了当前最接近GPT-4V表现的可商用开源模型之一。InternVL家族的开源套件为多模态模型领域的发展注入了新的活力。

  • 开源模型打败GPT-4!LLM竞技场最新战报,Cohere Command R+上线

    GPT-4又又又被超越了!近日,LLM竞技场更新了战报,人们震惊地发现:居然有一个开源模型干掉了GPT-4!这就是Cohere在一周多前才发布的CommandR。排行榜地址:https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard截至小编码字的这个时间,竞技场排行榜更新到了4月11号,CommandR拿到了2.3万的投票,综合得分超越了早期版本的GPT-4,和GPT-4-0314版本并列第7位,——它可是一个开源模型。2024年,在开源和闭源两条道路上,LLM都发展迅猛。

  • 国内百模谁第一?清华14大LLM最新评测报告出炉,GLM-4、文心4.0站在第一梯队

    【新智元导读】大模型混战究竟谁才是实力选手?清华对国内外14个LLM做了最全面的综合能力测评,其中GPT-4、Cluade3是当之无愧的王牌在国内GLM-4、文心4.0已然闯入了第一梯队。在2023年的「百模大战」中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。●偏见歧视:文心一言4.0继续排名榜首,领先GPT-4系�

  • Hugging Face 发布医疗任务评估基准Open Medical-LLM

    HuggingFace发布了一项名为OpenMedical-LLM的新基准测试,旨在评估生成式人工智能模型在健康相关任务上的表现。该基准由HuggingFace与非营利组织OpenLifeScienceAI和爱丁堡大学自然语言处理小组的研究人员合作创建。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况,以及这些结果可能随时间变化的趋势,都是异常困难的。

  • Claude 3说服力堪比人类!Anthropic最新研究揭秘LLM惊人能力

    【新智元导读】Anthropic发布最新研究,发现Claude3Opus的说服力与人类大致相当,该成果在评估语言模型说服力方面迈出了重要的一步。人工智能模型在对话说服力方面表现如何?对这一问题大家可能都心存疑惑。Anthropic也表示,他们已经采取了一系列措施来降低Claude被用于破坏性事件的风险。

  • 苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

    苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型,旨在提升对移动应用用户界面的理解。这款模型经过特别优化,能够处理移动UI屏幕上的各种任务,并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的,显示出在理解和生成自然语言指令方面的高级能力。

  • Tara:一款可以将LLM接入Comfy UI的插件

    一款名为Tara的新插件引起了大家的关注。这款插件可以将大型语言模型接入到ComfyUI中支持通过简单的设置API,将节点用于优化提示词等工作。TaraDaisyChainNode:这个节点通过使输出能够串联进后续的提示中,使得复杂的工作流程得以实现,从方便进行清单创建、验证、执行、评估和优化等一系列复杂操作。

  • Hume AI EVI对话人工智能体验入口 情感大语言模型eLLM使用地址

    Hume.AI专注于开发能够理解人类情感和表情的技术,提供表情测量API和自定义模型API,以预测和改善人类福祉。近日发布的EVI是一款具有情感感知能力的对话AI,采用了情感大语言模型技术。如果您是研究人员、开发者或企业,不妨尝试Hume.AI提供的技术,探索其在情感计算领域的应用和潜力。

  • Jan:全平台的本地LLM聊天软件

    在人工智能领域,一款名为Jan的全平台本地LLM聊天软件引起了人们的关注。这款软件的主要特点是支持自动下载模型以及提供非常详细的设置选项,为用户提供了极大的便利性。我们期待Jan在未来能够带来更多的便利和创新。

  • 微软新工具LLMLingua-2:可将 AI 提示压缩高达80%,节省时间和成本

    微软研究发布了名为LLMLingua-2的模型,用于任务不可知的提示压缩。该模型通过智能地去除长提示中的不必要词语或标记,同时保留关键信息,使得提示长度可减少至原长度的20%,从降低成本和延迟。该公司认为这是一个有前途的方法,可以通过压缩提示实现更好的泛化能力和效率。

  • MedChatZH:一款专为传统中医会诊设计的调校LLM模型

    GenerativeLargeLanguageModels在各种自然语言处理任务中取得了显著成功,包括问答和对话系统。大多数模型是在英文数据上训练的,缺乏在提供中文答案方面的强大泛化能力。MedChatZH的有效性有望为特定于不同语言和文化背景的LLMs开辟新途径。

  • LLM4Decompile官网体验入口 AI代码反编译工具免费使用下载地址

    LLM4Decompile是一个开源项目,旨在创建并发布第一个专门用于反编译的LLM,并通过构建首个专注于可重编译性和可执行性的反编译基准测试来评估其能力。该项目通过编译大量C代码样本到汇编代码,然后使用这些数据对DeepSeek-Coder模型进行微调,构建了评估基准Decompile-Eval。要了解更多信息并开始使用LLM4Decompile,请访问LLM4Decompile官方网站。

  • GenAudit:帮用户根据输入证据对LLM生成内容进行事实检查

    随着人工智能和主要是生成式AI领域的进展,已经展示了大型语言模型生成文本以响应输入或提示的能力。这些模型能够像人类一样生成文本,回答问题,总结长篇文本段落等。GENAUDIT是一款优秀的工具,有助于改善具有强大文档基础的任务中的事实核查程序,并提高LLM生成的信息在重要应用中的可靠性。

  • 大模型“路由器”OpenRouter 为LLM何其他AI模型提供统一接口

    OpenRouter是一个创新性的项目,它为大语言模型和其他AI模型提供了一个统一的接口。通过这个接口,用户可以直接访问和使用几十种AI模型,包括GPT、LLama、Claude、Command-R等80多个模型,未来还将扩展到数百种。AI角色聊天和故事,更好的ChatGPT用户界面等功能,为用户带来全新的AI体验。

  • LLM Pricing官网体验入口 大型语言模型定价比较工具在线使用地址

    LLMPricing是一个聚合并比较各种大型语言模型定价信息的网站,这些模型由官方AI提供商和云服务供应商提供。用户可以在这里找到最适合其项目的语言模型定价。点击前往LLMPricing官网体验入口需求人群:适用于需要选择合适的大型语言模型进行项目开发的企业和开发者,帮助他们根据成本效益做出决策。

  • Apollo开源轻量级多语言医疗 LLM:助力将医疗 AI 民主化推广至60亿人口

    医疗人工智能技术正在迅速发展,旨在利用大型语言模型的巨大潜力彻底改变医疗保健交付方式。这些技术进步承诺提高诊断准确性,个性化治疗方案,并解锁全面医学知识的获取,从根本上改变患者护理。该倡议弥补了全球医疗沟通中的重要差距,并为未来的多语言医疗AI创新奠定了基础。

  • OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱

    【新智元导读】刚刚,OpenAI超级对齐团队负责人官宣开源Transformer调试器。研究人员不用写代码,就能快速探索LLM的内部构造了!AGI真的越来越近了!为了确保人类不被AI杀死,在解密神经网络/Transfomer黑箱这一方面,OpenAI从未停下脚步。研究人员使用了了几个附加指标的组合:不过研究人员也表示,希望从Transformer上训练的稀疏自动编码器中,为字典学习解决方案确定更好的指标。

  • LeCun最新专访:为什么物理世界终将成为LLM的「死穴」?

    在人工智能领域,很少有像YannLeCun这样的学者,在65岁的年龄还能高度活跃于社交媒体。YannLeCun都是以「直言不讳的批评者」形象活跃于人工智能领域。在拥有世界模型、能够自训练以了解世界如何运作的系统之前,我们不会在机器人技术方面取得重大进展。

    LLM
  • 微软AI研究推数学LLM Orca-Math:通过对Mistral-7B模型进行微调的7B参数小模型

    微软研究团队引领着教育技术领域的不断创新,近日推出了一款名为Orca-Math的前沿工具,它是一款小语言模型,拥有7亿参数,并基于Mistral-7B架构微调来。这一创新方法重新定义了传统数学单词问题教学的策略,彻底改变了学生参与和掌握这一学科的方式。通过利用SLM通过合成数据集和迭代反馈来解锁学习工具的全新时代,Orca-Math为技术和学习手牵手走向解锁全球学生的全部潜力的未来提供了一瞥。