SPP开源：支持多人协同提升大模型性能

2023-08-18 11:37 · 稿源：站长之家

站长之家（ChinaZ.com）8月18日消息:Solo Performance Prompting（SPP）是一款旨在提升大型语言模型性能的多人合作助手。它通过多人设定，实现了协同合作的方式来解决任务。

项目地址:https://github.com/mikewangwzhl/solo-performance-prompting

通过使用精细调整的角色，SPP 使 LLMs 能够处理需要深度领域知识和复杂推理的任务。这一方法有望为 AI 技术开辟新的路径，提高在疑难问题解决方面的能力。

核心功能:

1. 小知识创意写作:协助用户进行创意写作，生成有趣的小知识文本。

2.密码词协作游戏:提供系统信息，并协助用户在协作游戏中找到正确的答案。

3. 逻辑格子谜题:通过多人合作，帮助用户解决逻辑谜题，找到正确的答案。

通过引入多人合作的方式，Solo Performance Prompting 能够显著提升大型语言模型在各种任务上的性能，为用户提供更好的体验和辅助。

（举报）

相关推荐

关键词：

ROUGE 矩阵：大模型性能评估工具

ROUGE矩阵是评估大型语言模型的性能和能力的工具。在自然语言处理领域中，评估模型的性能非常重要，但由于语言输出的不可预测性和人类语言的复杂性，传统的机器学习评估方法存在局限性。ROUGE矩阵是评估语言模型摘要能力的重要工具，通过不断改进和结合其他指标，可以更准确地评估语言模型的性能。
LLM评估测试框架DeepEval 可离线评估大模型性能

DeepEval是一个用于对语言模型应用进行评估和单元测试的框架。它提供了各种指标，可以测试语言模型应用生成的回复在相关性、一致性、无偏见性和无毒性等方面的表现。如果你在开发聊天机器人、语言模型应用，DeepEval绝对是一个提高工程效率的好帮手。

DeepEval
荐20B量级大模型性能媲美Llama2-70B！完全开源，从基座到工具全安排明白了

【新智元导读】国产模型开源纪录，又被刷新了!上海AI实验室等机构开源的InternLM-20B，竟然能和Llama2-70B打个平手?就在刚刚，国内开源模型参数量纪录，又被刷新了!9月20日，上海人工智能实验室与商汤科技联合香港中文大学和复旦大学，正式开源了200亿参数的InternLM-20B模型。项目地址:https://github.com/InternLM/InternLM魔搭社区:https://modelscope.cn/organization/Shanghai_AI_Laboratory这次的200亿参数版书生·浦语大模型，可以说是「加量不加价」，参数量还不到三分之一，性能却可以剑挑当今开源模型的标杆——Llama2-70B。上海AI实验室的「雪中送炭」，必然会让大模型在落地领域发挥出巨大的价值。

模型
荐开源大模型正在“杀死”闭源？

“OpenAI不足为惧，开源会慢慢赶上来。”彼时HuggingFace创始人ClemDelangue的一句预言，正在迅速成为现实。这也足以说明，开源还是闭源，或许只是阶段和位置的不同，但可以肯定的是，大模型时代，已经加速进入下一赛段。

大模型
姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0

IDEA研究院封神榜团队最近开源了最新的代码大模型Ziya-Coding-34B-v1.0，该模型在HumanEvalPass@1的评测上取得了75.5的好成绩，超过了GPT-4的得分。此次开源的Ziya-Coding-34B-v1.0，基于CodeLLaMA34B的预训练模型，经过了两个阶段的有监督精调，支持多种与代码相关的任务，包括代码生成、代码解释、代码纠错以及单元测试的生成等。
度小满“轩辕70B”金融大模型开源

度小满推出全新的金融行业大模型“轩辕70B”，标志着金融大模型迈向新的高度。该模型在通用能力和专业金融领域表现出色，名列各项开源模型评测榜单前列，特别在中文任务评测和金融领域十大类权威考试方面提供专业支持。5.对话能力:XuanYuan-70B-Chat模型经过通用和金融指令微调，具备出色的对话生成能力，可以用于生成金融领域的文本摘要以及回答各种问题。

大模型 AI头条
荐大模型生成提速2倍！单GPU几小时搞定微调，北大数院校友共同一作丨开源

只需给大模型“加点小零件”，推理速度立刻提升2倍!不需要额外训练一个模型，也不需要对计算硬件做优化，单张A100最快几小时就能微调完成。这项新研究名叫Medusa，来自普林斯顿、UIUC、CMU和康涅狄格大学，FlashAttention作者TriDao也在其中。FlashAttention是一种能加快注意力并减少内存占用的方法，相比PyTorch标准注意力实现，最高能提速9倍。

GPU 大模型
荐超13万个大模型！微软增强ChatGPT等开源模型，训练、推理能力

著名AI模型开源平台HuggingFace上有超过320，000个大模型，并且每天保持高速增长。据统计只有大约6，000个模型支持ONNX格式，但微软表示，实际上有超过130，000个模型支持该格式。在HuggingFace开源平台上还有10万个模型不支持ONNX格式，鼓励更多的技术研究机构、开源项目加入到ONNX社区，以通过ONNXRuntime增强开发效率。
荐新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT

继各类单一模态输入的多模态语言模型后，新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出，可以实现文本、图像、语音和视频之间的自由转换，是第一个实现从任一模态到任一模态转换的通用多模态系统。后续工作可以考虑扩展更多模态，使用更大规模的语言模型基座，以及改进多模态生成策略等。

大模型
国产开源新标杆！20B大模型，性能媲美Llama2-70B，单卡可推理

国产新标杆:免费可商用的200亿参数大模型，来了!书生·浦语大模型20B版本正式发布，一举刷新国内新一代大模型开源纪录。它由上海人工智能实验室与商汤科技联合香港中文大学和复旦大学共同推出。正如林达华所说:这或许才是当下大模型趋势里，大家最应该“卷”的方向。

InternLM 书生·浦语大模型

今日大家都在搜的词：

热文

3 天
7天

SPP开源：支持多人协同提升大模型性能

ROUGE 矩阵：大模型性能评估工具

LLM评估测试框架DeepEval 可离线评估大模型性能

荐20B量级大模型性能媲美Llama2-70B！完全开源，从基座到工具全安排明白了

荐开源大模型正在“杀死”闭源？

姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0

度小满“轩辕70B”金融大模型开源

荐大模型生成提速2倍！单GPU几小时搞定微调，北大数院校友共同一作丨开源

荐超13万个大模型！微软增强ChatGPT等开源模型，训练、推理能力

荐新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT

国产开源新标杆！20B大模型，性能媲美Llama2-70B，单卡可推理

今日大家都在搜的词：

热文

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

小米平板8系列搭载11.2英寸3.2K旗舰屏

雷军演讲主题《改变》官宣：聊玄戒芯片和小米汽车背后的故事

iPhone17遭首批用户吐槽客服回应：建议新机带壳

realme真我GT8系列官宣10月发布

鸿蒙智行尚界H5小订破15万台：明晚上市

微信员工回应新iPhone提示空间不足：代码Bug所致

AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-A

小米召回116887辆SU7电动汽车：将OTA升级消除安全隐患

雷军回应小米召回11.7万辆SU7：将为用户带来更多期待功能

iPhone17 Pro Max续航实测夺冠 iPhone Air表现不俗

小米发布REDMI 15R 5G手机：售价1099元起搭载6000mAh电池

鸿蒙智行秋季发布会定档9月23日：尚界H5、新问界M7来了

苹果 iPhone 17/Pro 系列今日发售多维度升级

京东：iPhone 17开卖4小时全国超3万人签收

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

站长商机

SPP开源：支持多人协同 提升大模型性能

今日大家都在搜的词：

热文

站长商机

SPP开源：支持多人协同提升大模型性能