LLM性能提升

LLM智能体被众多业界AI大佬看好，甚至有望成为将人类从琐碎工作中解放出来的利器。它们该如何与世界进行最佳互动?最近，来自UIUC和苹果的华人研究员，提出了一种全新的智能体框架——CodeAct。在表5中，研究人员还发现CodeActAgent在测试的一般LLM任务中表现更好，除了CodeActAgent在MMLU上略有下降。...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

与“LLM性能提升”的相关热搜词：

相关“LLM性能提升” 的资讯996篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐 GPT-4绝对性能暴涨74.4%！UIUC苹果华人团队提出CodeAct，用Python代码统一LLM智能体行动

LLM智能体被众多业界AI大佬看好，甚至有望成为将人类从琐碎工作中解放出来的利器。它们该如何与世界进行最佳互动?最近，来自UIUC和苹果的华人研究员，提出了一种全新的智能体框架——CodeAct。在表5中，研究人员还发现CodeActAgent在测试的一般LLM任务中表现更好，除了CodeActAgent在MMLU上略有下降。

GPT-4 Python 人工智能
比OpenAI官方提示词指南更全，这26条黄金准则让LLM性能飙升50%以上

穆罕默德・本・扎耶德人工智能大学VILALab带来了一项关于如何更好地为不同规模的大模型书写提示词的研究，让大模型性能在不需要任何额外训练的前提下轻松提升50%以上。该工作在X、Reddit和LinkedIn等平台上都引起了广泛的讨论和关注。更多提示词原则使用方法和说明，欢迎阅读原文。

OpenAI 提示词 AI头条
智谱AI发布评分模型CritiqueLLM 可评估文本生成模型性能

智谱AI发布了高质量、低成本的评分模型CritiqueLLM，用于评估文本生成模型的性能。传统的评价指标如BLEU和ROUGE主要基于n-gram重合度来计算评分，缺乏对整体语义的把握。通过这些步骤，可以得到适用于含参考文本和无参考文本设定的两种CritiqueLLM模型，用于评估文本生成模型的性能。
国产大模型黑马诞生，千亿级拿下双榜第一！知识正确性能力突出，大幅降低LLM幻觉问题

夸克，也下场大模型了。夸克大模型就迅速登顶权威测评双榜第一，幻觉率大幅降低，可以预见，风靡年轻人的夸克APP，要掀起新的飓风了。」随着自研大模型的全面升级，全新的夸克，必然会给我们带来全新的惊喜。

国产大模型夸克
LLM评估测试框架DeepEval 可离线评估大模型性能

DeepEval是一个用于对语言模型应用进行评估和单元测试的框架。它提供了各种指标，可以测试语言模型应用生成的回复在相关性、一致性、无偏见性和无毒性等方面的表现。如果你在开发聊天机器人、语言模型应用，DeepEval绝对是一个提高工程效率的好帮手。

DeepEval
LLM Finetuning Hub开源：提升大型语言模型性能的实用平台

大语言模型微调中心是一个开源项目，它包含了大规模语言模型微调和部署的代码库以及相关研究成果。该项目由GeorgianPartners旗下的GeorgianIO团队开发，目的是帮助用户轻松地针对具体业务场景对各种LLM进行微调，并根据综合评估结果选择最适合的模型。该项目预计会持续迭代，支持越来越多前沿的LLM，并公开更多评估实验结果，以造福LLM领域的技术发展。

大模型
开源LLM部署框架FlexFlow：低延迟、高性能

FlexFlow是一个分布式深度学习框架，提供低延迟、高性能的LLM模型服务。它通过使用推测性推理和树状并行解码技术，显著提高了LLM模型的服务速度。具体功能如下:支持数据并行和模型并行训练支持混合精度训练，可减少内存使用和加速训练集成了常见的深度学习模型，如Transformer、BERT等支持在单机多GPU和多机多GPU环境部署提供Python和C两种API支持主流的深度学习框架，如PyTorch、TensorFlow的模型导入训练性能强劲，在benchmark测试中表现优异总之，FlexFlowServe是一个高性能、低延迟的LLM模型服务框架，通过推测推理和其他优化技术，大大加速了LLM模型的推理过程，为用户提供更好的服务体验。

LLM
荐懂3D的语言模型来了！UCLA、上交、MIT等联合提出3D-LLM：性能大涨9%

有了3D-语言模型，去重庆导航也不在「话」下!大型语言模型和视觉语言模型在各种评测基准中都展现出了强大的性能，比如可以看图说话、进行常识推理。但这些模型的训练过程并没有引入3D物理世界，也就无法理解更丰富的现实概念，包括空间关系、布局、物体反馈等。还可以发现，以单视角图像或多视角图像作为输入，二维VLM的性能会比三维VLM下降很多，也就是说多视角�

3D-语言模型大语言模型
Linux服务器：设计高性能网站架构-LLMP

在网站架构设计中，大家一定对 LAMP （Linux Apache Mysql Php）不陌生。LAMP确实是一个非常优秀的架构，秉承着自由，开放，高效，易用的设计理念。但是，本文不打算探讨LAMP，网上有很多介绍LAMP的资料。

设计网站架构高性能
荐开源模型打败GPT-4！LLM竞技场最新战报，Cohere Command R+上线

GPT-4又又又被超越了!近日，LLM竞技场更新了战报，人们震惊地发现:居然有一个开源模型干掉了GPT-4!这就是Cohere在一周多前才发布的CommandR。排行榜地址:https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard截至小编码字的这个时间，竞技场排行榜更新到了4月11号，CommandR拿到了2.3万的投票，综合得分超越了早期版本的GPT-4，和GPT-4-0314版本并列第7位，——它可是一个开源模型。2024年，在开源和闭源两条道路上，LLM都发展迅猛。

Cohere CommandR+ 人工智能
荐国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

【新智元导读】大模型混战究竟谁才是实力选手?清华对国内外14个LLM做了最全面的综合能力测评，其中GPT-4、Cluade3是当之无愧的王牌在国内GLM-4、文心4.0已然闯入了第一梯队。在2023年的「百模大战」中，众多实践者推出了各类模型，这些模型有的是原创的，有的是针对开源模型进行微调的;有些是通用的，有些则是行业特定的。●偏见歧视:文心一言4.0继续排名榜首，领先GPT-4系�

GLM-4
Hugging Face 发布医疗任务评估基准Open Medical-LLM

HuggingFace发布了一项名为OpenMedical-LLM的新基准测试，旨在评估生成式人工智能模型在健康相关任务上的表现。该基准由HuggingFace与非营利组织OpenLifeScienceAI和爱丁堡大学自然语言处理小组的研究人员合作创建。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况，以及这些结果可能随时间变化的趋势，都是异常困难的。

HuggingFace AI头条
荐 Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

【新智元导读】Anthropic发布最新研究，发现Claude3Opus的说服力与人类大致相当，该成果在评估语言模型说服力方面迈出了重要的一步。人工智能模型在对话说服力方面表现如何?对这一问题大家可能都心存疑惑。Anthropic也表示，他们已经采取了一系列措施来降低Claude被用于破坏性事件的风险。

Claude3
苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型，旨在提升对移动应用用户界面的理解。这款模型经过特别优化，能够处理移动UI屏幕上的各种任务，并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的，显示出在理解和生成自然语言指令方面的高级能力。

模型 AI头条
IBM申请名为 “LAB” 的专利，利用合成数据训练LLM

IBM近日申请了一项名为“LAB”的专利，旨在利用合成数据来训练LLM模型，以加速企业AI技术的发展。AI模型对数据有着巨大的需求提供大量、质量高、相关性强的数据常常成为一项挑战。IBM可能会利用这一专利来支持那些正在构建自己AI模型的企业，提供一种相对于收集真实用户数据言更少资源密集的方法。

IBM LLM AI头条
Tara：一款可以将LLM接入Comfy UI的插件

一款名为Tara的新插件引起了大家的关注。这款插件可以将大型语言模型接入到ComfyUI中支持通过简单的设置API，将节点用于优化提示词等工作。TaraDaisyChainNode:这个节点通过使输出能够串联进后续的提示中，使得复杂的工作流程得以实现，从方便进行清单创建、验证、执行、评估和优化等一系列复杂操作。

Tara ComfyUI AI头条
Hume AI EVI对话人工智能体验入口情感大语言模型eLLM使用地址

Hume.AI专注于开发能够理解人类情感和表情的技术，提供表情测量API和自定义模型API，以预测和改善人类福祉。近日发布的EVI是一款具有情感感知能力的对话AI，采用了情感大语言模型技术。如果您是研究人员、开发者或企业，不妨尝试Hume.AI提供的技术，探索其在情感计算领域的应用和潜力。

Hume.AI
Jan：全平台的本地LLM聊天软件

在人工智能领域，一款名为Jan的全平台本地LLM聊天软件引起了人们的关注。这款软件的主要特点是支持自动下载模型以及提供非常详细的设置选项，为用户提供了极大的便利性。我们期待Jan在未来能够带来更多的便利和创新。

LLM 聊天软件 AI头条
微软新工具LLMLingua-2：可将 AI 提示压缩高达80%，节省时间和成本

微软研究发布了名为LLMLingua-2的模型，用于任务不可知的提示压缩。该模型通过智能地去除长提示中的不必要词语或标记，同时保留关键信息，使得提示长度可减少至原长度的20%，从降低成本和延迟。该公司认为这是一个有前途的方法，可以通过压缩提示实现更好的泛化能力和效率。

LLMLingua-2 微软 AI头条
MedChatZH:一款专为传统中医会诊设计的调校LLM模型

GenerativeLargeLanguageModels在各种自然语言处理任务中取得了显著成功，包括问答和对话系统。大多数模型是在英文数据上训练的，缺乏在提供中文答案方面的强大泛化能力。MedChatZH的有效性有望为特定于不同语言和文化背景的LLMs开辟新途径。

MedChatZH LLM AI头条
LLM4Decompile官网体验入口 AI代码反编译工具免费使用下载地址

LLM4Decompile是一个开源项目，旨在创建并发布第一个专门用于反编译的LLM，并通过构建首个专注于可重编译性和可执行性的反编译基准测试来评估其能力。该项目通过编译大量C代码样本到汇编代码，然后使用这些数据对DeepSeek-Coder模型进行微调，构建了评估基准Decompile-Eval。要了解更多信息并开始使用LLM4Decompile，请访问LLM4Decompile官方网站。

LLM4Decompile
GenAudit：帮用户根据输入证据对LLM生成内容进行事实检查

随着人工智能和主要是生成式AI领域的进展，已经展示了大型语言模型生成文本以响应输入或提示的能力。这些模型能够像人类一样生成文本，回答问题，总结长篇文本段落等。GENAUDIT是一款优秀的工具，有助于改善具有强大文档基础的任务中的事实核查程序，并提高LLM生成的信息在重要应用中的可靠性。

GenAudit LLM AI头条
大模型“路由器”OpenRouter 为LLM何其他AI模型提供统一接口

OpenRouter是一个创新性的项目，它为大语言模型和其他AI模型提供了一个统一的接口。通过这个接口，用户可以直接访问和使用几十种AI模型，包括GPT、LLama、Claude、Command-R等80多个模型，未来还将扩展到数百种。AI角色聊天和故事，更好的ChatGPT用户界面等功能，为用户带来全新的AI体验。

大模型 OpenRouter LLM
LLM Pricing官网体验入口大型语言模型定价比较工具在线使用地址

LLMPricing是一个聚合并比较各种大型语言模型定价信息的网站，这些模型由官方AI提供商和云服务供应商提供。用户可以在这里找到最适合其项目的语言模型定价。点击前往LLMPricing官网体验入口需求人群：适用于需要选择合适的大型语言模型进行项目开发的企业和开发者，帮助他们根据成本效益做出决策。

LLMPricing
Apollo开源轻量级多语言医疗 LLM：助力将医疗 AI 民主化推广至60亿人口

医疗人工智能技术正在迅速发展，旨在利用大型语言模型的巨大潜力彻底改变医疗保健交付方式。这些技术进步承诺提高诊断准确性，个性化治疗方案，并解锁全面医学知识的获取，从根本上改变患者护理。该倡议弥补了全球医疗沟通中的重要差距，并为未来的多语言医疗AI创新奠定了基础。

Apollo AI头条
荐 OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱

【新智元导读】刚刚，OpenAI超级对齐团队负责人官宣开源Transformer调试器。研究人员不用写代码，就能快速探索LLM的内部构造了!AGI真的越来越近了!为了确保人类不被AI杀死，在解密神经网络/Transfomer黑箱这一方面，OpenAI从未停下脚步。研究人员使用了了几个附加指标的组合:不过研究人员也表示，希望从Transformer上训练的稀疏自动编码器中，为字典学习解决方案确定更好的指标。

OpenAI Transformer
荐 LeCun最新专访：为什么物理世界终将成为LLM的「死穴」？

在人工智能领域，很少有像YannLeCun这样的学者，在65岁的年龄还能高度活跃于社交媒体。YannLeCun都是以「直言不讳的批评者」形象活跃于人工智能领域。在拥有世界模型、能够自训练以了解世界如何运作的系统之前，我们不会在机器人技术方面取得重大进展。

LLM
微软AI研究推数学LLM Orca-Math:通过对Mistral-7B模型进行微调的7B参数小模型

微软研究团队引领着教育技术领域的不断创新，近日推出了一款名为Orca-Math的前沿工具，它是一款小语言模型，拥有7亿参数，并基于Mistral-7B架构微调来。这一创新方法重新定义了传统数学单词问题教学的策略，彻底改变了学生参与和掌握这一学科的方式。通过利用SLM通过合成数据集和迭代反馈来解锁学习工具的全新时代，Orca-Math为技术和学习手牵手走向解锁全球学生的全部潜力的未来提供了一瞥。

Orca-Math Mistral-7B AI头条
SLD自纠正LLM控制的扩散模型框架怎么使用？SLD官网地址入口

SLD 是一个自纠正的LLM控制的扩散模型框架，它通过集成检测器增强生成模型，以实现精确的文本到图像对齐。SLD框架支持图像生成和精细编辑，并且与任何图像生成器兼容，如DALL-E 3，无需额外训练或数据。点击前往SLD官网体验入口需求人群：适用于需要精确文本到图像对齐的研究者和开发者，以及希望进行图像生成和编辑的用户。使用场景示例：使用SLD框架根据文本提示生�

SLD
荐今日AI：GPT4强敌Inflection-2.5模型发布；Midjourney要推中国版APP；MovieLLM一句话生成电影

欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

Inflection

热文

3 天
7天

LLM性能提升

与“LLM性能提升”的相关热搜词：

相关“LLM性能提升” 的资讯996篇

热文

站长商机