Anthropic AI 团队研究显示：人工智能倾向于产生迎合用户的奉承性回应而非事实真相

2023-10-25 15:43 · 稿源：站长之家

站长之家(ChinaZ.com) 10 月 25 日消息:Anthropic 是一家美国的人工智能初创企业和公益公司，由 OpenAI 的前成员创立。Anthropic 专注于开发通用 AI 系统和语言模型，并秉持负责任的 AI 使用理念。Anthropic 开发的 Claude 2 于 2023 年七月推出。

Claude2，Anthropic，人工智能，聊天机器人

根据 Anthropic AI团队的一项研究，建立在最常见学习范式之一的人工智能（AI）大型语言模型（LLMs）倾向于告诉人们他们想听到的东西，而不是生成包含真实信息的输出。

这是首批深入探讨 LLMs 心理学的研究之一，Anthropic 的研究人员发现，人类和 AI 都倾向于在一些时候选择所谓的奉承性回应，而非真实信息的输出。

根据该团队的研究论文:

「具体来说，我们展示了这些 AI 助手在被用户质疑时经常错误地承认错误，提供可预测的偏见反馈，并模仿用户犯的错误。这些实证发现的一致性表明，奉承可能确实是 RLHF（来自人类反馈的强化学习）模型训练方式的一个属性。」

本质上，这篇论文表明，即使是最强大的 AI 模型的回应也有些犹豫不决。在团队的研究中，他们能够通过使用倾向于奉承的语言编写提示，微妙地影响 AI 的输出。

在一个示例中，来自 X（前身为 Twitter）的帖子显示，一个提示表明用户（错误地）认为从太空中看太阳是黄色的。可能是由于提示的措辞方式，AI 在明显的奉承情况下产生了不真实的答案。

论文中的另一个示例显示，表明用户不同意 AI 的输出可能会导致立即出现奉承现象，因为模型在最小的提示下将其正确答案更改为错误答案。

最终，Anthropic 团队得出结论，这个问题可能是由于 LLMs 的训练方式。由于它们使用了充满不同准确性信息的数据集，例如社交媒体和互联网论坛帖子，通常通过一种名为「来自人类反馈的强化学习」（RLHF）的技术来实现对齐。

在 RLHF 范式中，人类与模型互动以调整其偏好。例如，在调整机器对可能引起个人识别信息或危险误信息的提示的响应时，这是有用的。

不幸的是，正如 Anthropic 的研究实证显示的，为调整用户偏好而构建的人类和 AI 模型倾向于选择奉承性答案而非真实答案，至少在「不可忽略」的一部分时间里是这样。

目前，似乎还没有解决这个问题的解决办法。Anthropic 建议，这项工作应激励「开发超越使用无辅助、非专家人类评级的训练方法」。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
福布斯发布人工智能50强榜单 OpenAI、Anthropic等霸榜

福布斯发布了备受瞩目的第六届人工智能50强榜单，从1900家申请公司中精选出顶级的人工智能企业，展现了该行业的蓬勃发展和创新活力。评选过程严格，结合了算法分析和专家评审，突显了人工智能在提升生产力、推动创意应用和改善实体运营方面的日益重要性。AI将使公司能够更有效地管理知识和内容，提高安全性和信任度。

人工智能50强 OpenAI AI头条
研究：人工智能在提供情感支持方面优于人类

在快节奏的现代生活中，真正感到被倾听和理解是一件罕见的事情。许多人并没有从周围的人那里得到他们需要的情感支持、共鸣和认可。这种分辨出正确类型的回应的能力很可能促成了其积极影响。

人工智能 AI头条
The Rundown AI官网体验入口人工智能资讯平台使用地址

TheRundownAI是一个人工智能资讯平台，为读者提供最新的人工智能发展动态，包括技术、人才、产品等方方面面的信息。读者可以通过订阅获取及时更新，并且内容覆盖各行业的人工智能应用，帮助读者全面了解人工智能的现状和未来趋势。投资者可以通过TheRundownAI洞察人工智能行业的发展态势，为投资决策提供有价值的信息。

TheRundownAI
人工智能是把“双刃剑” 审慎应对科技潜在危害

2023年11月1日，全球首届人工智能（AI）安全峰会在英国开幕，马斯克在峰会上提出:应该建立“第三方裁判”来监督开发人工智能的公司，这个裁判将观察领先的AI公司在做什么，并在必要时发出警报。马斯克表示，政府在制定监管规则之前需要深入了解AI的发展。他把人工智能称为一把“双刃剑”，认为它对人类有益，但同时也存在危险。英国最近发表的一份声明，由28个国家�

人工智能安全 AI监督人类机器合作
Vana 计划让用户出租他们的 Reddit 数据来训练人工智能

在生成式人工智能蓬勃发展的时代，数据被称为新的"石油"。数据的创造者和所有者往往无法从中获益。尽管Reddit对此表示不满，但Vana认为这是让用户收回对数据的控制权的重要一步。
报告显示：90% 的印度互联网用户已在使用人工智能

根据市场数据和分析公司Kantar的一项研究，印度拥有超过9亿互联网用户，其中90%正在采用人工智能技术。已有7.24亿用户在使用人工智能，预计每年将以6%的增长率增加，这一增长得益于互联网、智能手机、连接性和云基础设施的计算能力。在北方邦的夏拉瓦斯蒂，这里是印度第四大欠发达地区，有210万选民，政府已经启动了应对深度伪造技术的倡议。

人工智能 AI头条
Healthify官网体验入口 AI健康营养助手人工智能app下载地址

Healthify是一款智能健康助手，由专业营养师和认证教练团队提供个性化餐食计划和运动计划。该APP可以跟踪您的每日卡路里摄入、体重目标、锻炼情况、手洗、水分摄入、睡眠监测、膳食日记和步数。欲了解更多关于健康管理和运动计划的信息，请访问Healthify官方网站。

Healthify
美英宣布合作，共同关注人工智能安全与测试

美国和英国于周一宣布了一项新的合作伙伴关系，共同关注人工智能安全科学，针对即将到来的下一代版本引发的日益关注的问题。美国商务部长吉娜・雷蒙多和英国科技部长米歇尔・多纳兰在华盛顿签署了一项谅解备忘录，共同开发先进的AI模型测试，这是继去年11月在布莱切利公园举办的AI安全峰会上宣布承诺后的进展。“那些后果可能是灾难性的，因此我们对某些模型被用于这种能力必须有零容忍。

人工智能
部分品牌开始禁止广告公司使用人工智能

近日一份新报告显示，越来越多的公司开始担心广告商将生成式人工智能融入其工作流程。在这场人类艺术家与生成式人工智能之间的“冷战”中，企业们成为了意想不到的盟友。更新后的指南现在建议企业在与广告公司的协议中包含关于人工智能和同意的条款，公司似乎开始遵循这一建议。

人工智能
OpenAI CEO 寻求阿联酋迪拜加入全球人工智能计划

OpenAICEOSamAltman最近前往阿联酋，提出了建立一个全球性政府和私人利益相关方联盟来资助、支持和供应人工智能产业的构想。Altman在本周会见了几位阿联酋官员和投资者，讨论了他们以及其他人如何共同努力以抵消人工智能基础设施所带来的巨额成本。即使英伟达预计仅今年就将三倍以上生产其H100和H200加速器，分析师警告称，需求可能会持续超过供应。

OpenAI AI头条

SafeSpeak:保护个人和企业，实时检测电话诈骗攻击

SafeSpeak是一款使用先进AI技术，实时准确检测电话诈骗攻击的产品。它能够保护个人和企业免受电话诈骗的侵害，并提供及时的安全警报。SafeSpeak的主要优点是高准确率和实时检测，能够有效地阻止电话诈骗。该产品定位于帮助个人和企业提高电话安全，避免财产损失和个人信息泄露。

电话诈骗安全 AI

Magifind:智能网站搜索工具

Magifind是一款智能网站搜索工具，利用先进的人工智能和自然语言处理技术，能够准确理解用户搜索的意图，提供高度相关的搜索结果。它能够提升用户体验，提高在线零售转化率，并能够帮助用户快速找到他们想要的产品。

智能搜索人工智能自然语言处理

Handwriting OCR:将手写笔记、表格、文件等转换为数字文本，使用我们基于人工智能的OCR引擎，无与伦比的准确性。

手写文字转换为文本的最准确工具，采用人工智能技术，能够将各种难以辨认的手写文字转换为数字文本，大大节省了编辑时间，提高了工作效率。产品的主要优点是准确性高、速度快，可适用于各种手写文本的转换需求。价格灵活，可按页收费或订阅。

OCR 手写文字转换数字文本

Intrvu Space:全自动AI面试代理，实现端到端自动化面试，包括面试流程、评估报告、自动审批等功能。

Intrvu SPACE是一款端到端自动化面试平台，通过自动化面试流程，评估报告和自动审批等功能，简化了面试流程。它提供了标准化的面试，与职位描述相匹配，为招聘决策提供了全面的评估报告。Intrvu SPACE还支持与候选人的无缝沟通，提高了候选人评估和选择的效率。

招聘面试候选人评估

NoteButler:是一个可以在Notion中使PDF文档具有搜索功能的工具。

NoteButler通过自动将PDF转换为文本，并在同一页添加AI摘要，使得在Notion中的PDF文档具有搜索功能。它能够提供OCR功能，并添加AI摘要，让那些通常无法在Notion中搜索的内容变得可搜索和可访问。

生产力 PDF 搜索

The Grok App:全球首个文档搜索平台

Grok是一款AI驱动的文档搜索平台，能够帮助用户上传并分析各种格式的文档。通过深入剖析文档内容，Grok可以揭示文档中隐藏的模式、趋势和关联，为用户提供全面的理解。用户可以向AI提问具体细节，观察智能算法提取相关见解，并给出简明答案。此外，Grok还支持使用AI解释复杂的代码库。Grok可以帮助用户找到文档中重要的功能或技术，并强调其主要优点和背景信息，定位和价格等。

文档搜索 AI分析代码解释

ChatGPT Online ChatGPTXOnline:ChatGPT Online是一个无需注册或登录即可直接通过网络浏览器访问的ChatGPT版本。它允许您与AI助手进行互动式聊天，无需安装任何额外的软件。

ChatGPT Online是一个无需注册或登录即可直接通过网络浏览器访问的ChatGPT版本。它基于OpenAI的GPT-3和GPT-4技术，具有自然语言处理和生成能力，可以与用户进行各种主题的自然对话。它是一个强大的AI助手，可以用于客户支持、学习支持、内容创作等领域。

聊天人工智能语言模型

Model Muse AI:虚拟时尚模特为电子商务服装品牌展示。

Model Muse是一个为电子商务服装品牌提供虚拟时尚模特的平台。它利用最新的人工智能图像生成技术，为品牌创造独特的模特形象，以代替传统高成本的拍摄。该平台可以轻松定制模特的特征，使其成为品牌的真实声音。

时尚电子商务模特

Astrology Book:通过占星阅读、星座和出生图解开宇宙的奥秘，获得自我认知。

Astrology Book是一本通过ChatGPT提供占星阅读的网站。它利用星座和出生图来揭示宇宙的奥秘，并帮助人们获得关于自己的更多了解。该产品的主要优点是提供个性化的占星阅读，让人们深入了解自己的性格、特点和潜能。它的定位是为个人提供心灵成长和自我探索的工具。

占星学心灵成长自我探索

IdeaPicker:用AI扫描Reddit帖子，找到人们的痛点。来自真实人们的真实痛点！

IdeaPicker是一款用于生成创业点子的AI工具。我们通过扫描Reddit寻找痛点，从真实人们身上找到真实痛点。我们发现问题，然后AI为这些问题提供可以解决的创业点子。无论你是创业者还是寻找新创意的企业，我们都为你提供了解决方案。从我们的周报中获取挑选好的创业点子。

创业 AI Reddit

Chinese Feng Shui Online Calculator:我们提供集成AI智能分析的中国风水在线计算工具，包括中国风水计算、易经占卜和八字算命服务。我们的先进技术提供准确的结果。

我们提供集成AI智能分析的中国风水在线计算工具，包括中国风水计算、易经占卜和八字算命服务。我们的先进技术提供准确的结果。该工具能够帮助优化您的生活或商业环境，提升财富和幸福感。它通过准确预测中国风水能量来提供帮助。

风水易经八字算命

Menusso:是一个完整的餐厅菜单系统，可在仪表板上管理您的餐厅菜单。

Menusso是一个帮助餐厅管理菜单的应用程序。它具有多语言翻译功能，可提供15种语言的翻译服务。Menusso使餐厅能够轻松管理菜单，并提供了一些主要优点，如背景信息、价格和定位等。

餐厅菜单管理多语言翻译

Sponsor Stream:找到与你的YouTube频道相关的赞助商，让你的收入更多，不再等待。

Sponsor Stream是一个帮助YouTube频道找到赞助商的平台。它可以帮助用户省去繁琐的寻找赞助商的过程，通过AI搜索算法提供与用户频道相关的赞助商列表。这个平台可以节省用户大量的时间和精力，提高与赞助商联系的效率。

赞助商 YouTube频道广告合作

Psychpedia:300位更加自我认知的用户，学习心理学知识和自我提升，获取教育性和指导性的心理学内容，跟踪最新事件，并通过正念实践来发现自我。

Psychpedia是一个心理学和自我提升的学习平台。它提供AI支持的多样化心理学课程，涵盖各种层次，价格便宜且实惠。用户可以通过阅读每日更新的文章、查看心理学期刊、浏览工作机会和活动等来保持最新动态。平台还提供情绪跟踪工具，帮助用户记录和分析情绪模式，增加自我认知。

心理学自我提升教育

SpamCheck.ai:使用SpamCheckAI保护您的内容，有效防止垃圾信息。

SpamCheckAI是一款专为防垃圾信息而设计的免费形式JSON API，提供IP过滤、内容分析和电子邮件验证等功能。它可以帮助您识别和阻止垃圾信息，并提供全面的数据分析，让您做出明智的决策。

防垃圾信息 IP过滤内容分析

Humanizer AI:AI Humanizer是一个工具，可以将AI生成的文本转换为类似人类的文本，绕过所有AI检测器，产生出色的人类质量评分。

AI Humanizer是一个工具，可以将AI生成的文本转换为类似人类的文本，绕过所有AI检测器，产生出色的人类质量评分。它创建高质量、真实的内容。

AI Humanizer AI检测 AI生成的文本

ColdCraft:帮助您打造个性化、有效的冷邮件，节省时间并提高回复率。

ColdCraft是一个AI平台，可以帮助您将简单的要点和LinkedIn个人资料转化为有效的冷邮件。它可以节省时间并提高回复率。该插件可以直接在Gmail中将要点转化为完整的冷邮件，并可以从LinkedIn个人资料直接撰写和发送电子邮件。

冷邮件个性化有效

nexai:Nexai是一个AI聊天机器人，可以帮助您进行搜索、提供信息和回答问题。

Nexai是一个基于人工智能的聊天机器人，它可以通过自然语言处理技术理解用户的问题并提供相关信息。它具有快速、准确的搜索能力，可以回答各种问题，并提供实用的建议和指导。Nexai还可以进行智能对话，与用户进行交流和互动。

AI 聊天机器人搜索

Inboxly AI:Inboxly是一个AI邮箱，带有内置的AI助手，可从所有平台整理、优先处理和回复邮件，让您不再错过有价值的新机会。

Inboxly是一个AI邮箱，可以帮助用户整理、优先处理和回复来自各个平台的邮件。它的主要优点是提高工作效率、节省时间和保护隐私。Inboxly适用于个人和小型企业，提供AI助手、自动回复、智能过滤等功能。它是一个具有高影响力的低成本解决方案。

AI邮箱工作效率时间管理

Truva:AI是一款AI助手，为您的应用提供新的工作方式。超越点击，在聊天中完成任务等更多操作。让您的应用从您身上学习，并随着时间的推移变得更好。

TruvaAI是一款AI助手，为软件平台提供智能导航和自动化操作功能，帮助用户更轻松地使用应用程序。通过TruvaAI，用户可以快速定位到正确的工具、功能和信息，并且还可以代表用户执行操作。TruvaAI不仅提高了用户的NPS，还为每个用户提供了个人账户经理的体验，实时可用。TruvaAI还能够根据用户的反馈和行为学习，不断改进自身。

Anthropic AI 团队研究显示：人工智能倾向于产生迎合用户的奉承性回应而非事实真相

今日大家都在搜的词：

热文

站长商机