研究人员发布Starling-7B：基于AI反馈的大语言模型媲美GPT-3.5

2023-11-29 10:33 · 稿源：站长之家

**划重点:**
1. 🚀 **RLAIF技术介绍:** Starling-7B采用了基于AI反馈的强化学习（RLAIF），通过优化Openchat3.5和Mistral-7B而成。
2. 📊 **性能卓越:** 在MT-Bench和AlpacaEval两项基准测试中，Starling-7B表现出色，对比其他模型的性能提升引人瞩目。
3. 🔄 **迈向人性化:** RLAIF主要改善了模型的实用性和安全性，未来计划通过引入高质量的人工反馈数据，更好地满足人类需求。

站长之家（ChinaZ.com）11月29日消息:UC伯克利的研究人员最近发布了Starling-7B，这是一款基于AI反馈强化学习（RLAIF）的开放式大语言模型(LLM)。该模型基于精调的Openchat3.5，并继承了Mistral-7B的特性。

在RLAIF中，研究人员借助其他AI模型的反馈来训练Starling-7B，以提升其聊天机器人响应的实用性和安全性。与以往ChatGPT中通过人类反馈进行的强化学习（RLHF）相比，RLAIF更具成本效益，速度更快，透明度更高，且可扩展性更强。

为了使用RLAIF训练模型，研究人员创建了Nectar数据集，其中包含183，000个聊天提示，每个提示有七个响应，总计3.8百万个成对比较。响应来自不同的模型，包括GPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-instruct和Llama2-7B。研究人员通过GPT-4对合成响应进行评分，并采用独特方法规避了GPT-4的偏见，将第一和第二响应评分最高。

Starling-7B在两个基准测试，MT-Bench和AlpacaEval中表现卓越。Starling-7B 在 MT-Bench 中的表现优于除 OpenAI 的 GPT-4和GPT-4Turbo之外的大多数模型，并且在 AlpacaEval 中取得了与 Claude2或 GPT-3.5等商业聊天机器人相当的结果。与普通 Openchat3.5相比，在 MT-Bench 中，分数从7.81增加到8.09，在 AlpacaEval 中，分数从88.51% 增加到91.99%。研究人员指出，RLAIF主要改善了模型的实用性和安全性，但并未影响其回答基于知识、数学或编码的问题的基本能力。

虽然基准测试结果在实际应用中有一定限制，但对于RLAIF的应用来说，结果仍然令人鼓舞。研究人员指出，下一步可能是通过引入高质量的人工反馈数据扩充Nectar数据集，以更好地调整模型以满足人类需求。

Starling-7B展示了AI反馈在强化学习中的潜力，为构建更符合人类喜好的模型打开了新的可能性。研究人员强调，尽管Starling-7B在一些需要推理或数学任务上仍存在困难，并有幻觉倾向，但其性能仍然可圈可点。

研究人员已经发布了Nectar数据集、与之相关的Starling-RM-7B-alpha奖励模型以及基于该数据集训练的Starling-LM-7B-alpha语言模型，这些可以在Hugging Face上获得。他们计划在不久的将来发布代码和论文，供研究使用。对于对模型进行测试，读者可以参与聊天机器人竞技场。

项目网址:https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha

（举报）

相关推荐
大家在看

关键词：

Starling-7B

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
DBRX抢占开源大模型王座编程、数学等领域超越GPT-3.5

最新开源大语言模型DBRX以其惊人的1320亿参数量成为业界新宠。该模型不仅在语言理解、编程和数学等方面超越了业内领先的开源模型在效率上有所突破。随着其在各项基准测试中的优异表现，DBRX有望成为未来开源大模型发展的重要里程碑，为人工智能领域的进步贡献力量。

DBRX AI头条
Meta新大语言模型LLama 3将在英特尔和高通硬件上运行

Meta最近发布了LLama3，这是一款新的大型语言模型，用于实现更安全、更准确的生成式人工智能体验。除了LLM，Meta还推出了LlamaGuard2、CodeShield和CyberSecEval2等信任和安全工具，以帮助确保符合行业和用户安全期望。随着400亿参数显示出更高的准确性，可以推断出更高的AI硬件需求不会很快减少。

Meta LLama3 AI头条
Meta即将推出新一代Llama3大语言模型

MetaPlatforms公司计划在下周推出Llama3大语言模型的两个小参数版本，作为即将在2024年夏天推出的Llama3最大版本的前奏。Llama3最高版本可能拥有超过1400亿个参数，这将使其性能有望赶上OpenAI最新的GPT-4Turbo版本。Meta正在全力推进Llama3的开发，这不仅体现了该公司在AI领域的野心，也为用户带来了更加智能和开放的AI服务的期待。

语言模型 Llama3 多模态技术
荐微软推出iPhone能跑的ChatGPT级模型，网友：OpenAI得把GPT-3.5淘汰了

Llama3发布刚几天，微软就出手截胡了?刚刚发布的Phi-3系列小模型技术报告，引起AI圈热议。其中仅3.8B参数的Phi-3-mini在多项基准测试中超过了Llama38B。对于开源小模型超过ChatGPT这回事，不少网友都认为压力现在给到OpenAI这边，需要赶快推出GPT-3.5的继任者了。

OpenAI
大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

让大模型直接操纵格斗游戏《街霸》里的角色，捉对PK，谁更能打?GitHub上一种你没有见过的船新Benchmark火了。与llmsys大模型竞技场中，两个大模型分别输出答案，再由人类评分不同——街霸Bench引入了两个AI之间的交互，且由游戏引擎中确定的规则评判胜负。正如开发者所说，想要赢，要在速度和精度之间做好权衡。

GPT-4 Benchmark
Stability AI发布CosXL模型图像处理能力更精细

StabilityAI最近推出了CosXL模型，这是一项包括基础版CoXL和增强版EditCosXL的创新技术。这些模型的发布，标志着图像生成和编辑技术的新里程碑，为用户提供了更加强大和精细的图像处理能力。特别是ComfyUI，它还为用户提供了详细的工作流程和指导，帮助用户更加高效和便捷地使用CosXL模型。

CosXL AI头条
戴尔Precision工作站：助力客户更有效地使用GenAI大语言模型

如何配置个人电脑才能更有效地使用生成式AI大语言模型生成式人工智能彻底改变了计算世界，戴尔科技的用户都开始考虑借助大语言模型去开发能够提升其公司生产力、效率和创新力的新功能。戴尔科技拥有全球最丰富的AI基础设施产品组合，从云到客户端设备一应俱全[1]，因此能够为用户提供满足其一切AI需求的端到端AI解决方案和服务。[1]基于戴尔科技集团的内部分析，2023年8月。

生成式AI 大语言模型戴尔科技
Hume AI EVI对话人工智能体验入口情感大语言模型eLLM使用地址

Hume.AI专注于开发能够理解人类情感和表情的技术，提供表情测量API和自定义模型API，以预测和改善人类福祉。近日发布的EVI是一款具有情感感知能力的对话AI，采用了情感大语言模型技术。如果您是研究人员、开发者或企业，不妨尝试Hume.AI提供的技术，探索其在情感计算领域的应用和潜力。

Hume.AI
Stability AI发布Stable LM2模型更新，参数增至120亿

站长之家（ChinaZ.com）4月9日消息:Stability AI在最新的Stable LM2模型更新中，宣布将参数增至120亿，以提升性能与可访问性。该更新为用户提供了更强大、更精确的文本内容生成能力。Stability AI指出，该模型在特定基准测试下表现优异，超过了Llama270B等更大型模型。新的Stable LM212B模型包括基础版本和经过指导调整的变体，旨在增强七种语言（英语、西班牙语、德语、意大利语、法�

StabilityAI StableLM2 AI头条

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

データ構造化 AI eコマース

geni:免费将您的普通产品转变为非凡的产品

geni-e是一款一体化的AI产品图像解决方案，企业可以使用该解决方案自动生成更好的产品图像。通过使用我们预设的背景设置，上传产品图像或使用自定义提示生成产品图像，您可以将在线商店的形象提升到一个新的水平。

研究人员发布Starling-7B：基于AI反馈的大语言模型 媲美GPT-3.5

今日大家都在搜的词：

热文

站长商机

研究人员发布Starling-7B：基于AI反馈的大语言模型媲美GPT-3.5