11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
在自然语言处理领域,语言模型的评估对于开发人员推动语言理解和生成的边界至关重要。LLMAutoEval是一款旨在简化和加速语言模型评估过程的工具,专为寻求快速高效评估LLM性能的开发者定制。作为一个为个人使用设计的不断发展的项目,鼓励开发者谨慎使用,并为其发展做出贡献,确保在自然语言处理社区中持续增长和实用性。
蚂蚁集团旗下CodeFuse发布了首个面向ToolLearning领域的中文评测基准ToolLearning-Eval,旨在帮助开发者跟踪和了解各个ToolLearning领域大模型的优势与不足。该评测基准按照FunctionCall流程划分为工具选择、工具调用和工具执行结果总结三个过程,并提供了相应的数据集供通用模型进行评测分析。ToolLearning-Eval项目将不断优化评测数据集、拓展多工具多轮对话数据集,增加评测模型,并�
GPTEval3D是一个开源的3D生成模型评价工具,基于GPT-4V实现了对文本到3D生成模型的自动评测。它可以计算生成模型的ELO分数,并与现有模型进行对比排名。要获取更多详细信息并开始使用GPTEval3D进行评测工作,请访问GPTEval3D官方网站。
GPTEval3D提供了一个用于评估文本到3D生成模型性能的评估指标。利用OpenAI和PyTorch,它通过ELO评分系统提供了一个全面的框架,用于评估文本到3D生成模型的性能。3DTopia/GPTEval3D为评估和比较文本到3D生成模型提供了一个用户友好的平台,提供了结构化的方法、清晰的文档和未来增强功能的一瞥,为更强大的评估体验铺平了道路。
蚂蚁集团联合北京大学发布了面向DevOps领域的大语言模型评测基准——DevOps-Eval。该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题,共计4850道题目。DevOps-Eval将持续优化,丰富评测数据集,重点关注AIOps领域,并增加更多的评测模型。
DeepEval是一个用于对语言模型应用进行评估和单元测试的框架。它提供了各种指标,可以测试语言模型应用生成的回复在相关性、一致性、无偏见性和无毒性等方面的表现。如果你在开发聊天机器人、语言模型应用,DeepEval绝对是一个提高工程效率的好帮手。
9月22日,度小满宣布“轩辕70B”金融大模型开源,所有用户均可自由下载和试用,并公布了“轩辕70B”在C-Eval、CMMLU两大知名大语言模型评测基准的成绩。在C-Eval榜单上,XuanYuan-70B的总成绩达到71.9分;在CMMLU榜单中,以71.05分的高分位居榜首,在两大榜单上的所有开源模型中排名居首,也是国内首个同时在两大榜单排名居首的金融大模型。本次发布的新版大模型相较于上一个版本能力全面提升:在增量预训练和指令微调阶段,加入了度小满业务场景中的海量金融数据,对金融问题回复更专业,金融知识理解能力提升明显;同时在预训练阶段,"轩辕70B”的模型上下文长度扩充到8k,能够处理更长的金融报告、研究和分析。
Xwin-LM是一款基于Llama2微调的语言模型,最近在斯坦福大学的AlpacaEval评估中一举击败了GPT-4,登上了榜首之位。这一成就引发了广泛的关注,因为GPT-4一直以来在AlpacaEval上表现出色,胜率超过95%。这一研究对于推动自然语言处理领域的进步具有重要意义。
C-Eval中文大模型榜单更新,云天励飞大模型以77.1的平均分位列榜单第一。C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。云天励飞将继续加强大模型的研发力度,为推进中国通用人工智能发展贡献力量。
夕小瑶科技说分享Lucy,是距今320万年最早的人类祖先,也是被输入某种“物质”后大脑开发到100%的超智能人类,能感知宇宙万物,拥有人类所有知识。如果大模型是Lucy,那么LucyEval即是助力其更智能的奇妙”物质“。本次受测中文大语言模型平均得分未来,甲骨易AI研究院将矢志不移地为提升中文大语言模型能力为目标,持续研究适应其发展的测试集,期待与同样关注大语言模型发展的业界同仁携手共建。