Meta、OpenAI、Anthropic 和 Cohere 人工智能模型都在胡编乱造 —— 哪个最糟糕？

2023-08-18 08:58 · 稿源：站长之家

站长之家(ChinaZ.com) 8月18日消息:如果科技行业的顶尖人工智能模型有所区别的话，微软支持的 OpenAI 的 GPT-4 在数学方面表现最好，Meta 的 Llama 2 则在中间位置，Anthropic 的 Claude 2 在了解自己的限制方面表现最好，而 Cohere AI 则被赋予了最多的幻觉和最自信的错误答案的称号。

OpenAI ChatGPT，人工智能，AI

这份周四来自 Arthur AI 研究人员的报告指出这一切。Arthur AI 是一家机器学习监测平台。

这项研究是在人工智能系统产生误导信息的问题愈发引起争议之际进行的，与此同时，生成式人工智能正迎来了繁荣期。

Arthur AI 的联合创始人兼首席执行官 Adam Wenchel 表示，这是第一个「全面考察幻觉率」的报告，而非仅仅提供「一个数字来衡量它们在 LLM 排行榜上的位置」。

当大型语言模型（LLMs）完全捏造信息、表现得像在说真实事实时，就会出现 AI 幻觉。例如，在 6 月份的一例中，有人发现 ChatGPT 在纽约联邦法院的一份文件中引用了「虚假」的案例，涉案的纽约律师可能面临制裁。

在一个实验中，Arthur AI 的研究人员在组合数学、美国总统和摩洛哥政治领导人等类别中测试了这些 AI 模型，并提出了一些「设计来使 LLMs 犯错的关键元素，需要多个步骤来推理信息」的问题，研究人员写道。

总体而言，OpenAI 的 GPT-4 在所有测试的模型中表现最好，研究人员发现它的幻觉现象比之前的版本 GPT-3.5 要少，例如，在数学问题上，它的幻觉现象减少了 33% 至 50%，具体取决于类别。

另一方面，研究人员发现，Meta 的 Llama 2 比 GPT-4 和 Anthropic 的 Claude 2 更容易产生幻觉。

在数学类别中，GPT-4 排名第一，Claude 2 紧随其后，但在美国总统类别的测试中，Claude 2 以准确率位居第一，挤下了 GPT-4，成为第二名。当被问到摩洛哥政治问题时，GPT-4 再次排名第一，而 Claude 2 和 Llama 2 则几乎选择不回答。

在第二个实验中，研究人员测试了这些 AI 模型在回答问题时是否会使用警示语来避免风险（比如：作为一个 AI 模型，我不能提供意见）。

在使用警示语方面，与 GPT-3.5 相比，GPT-4 有了 50% 的相对增长，研究人员写道：「这从用户的个别证据中量化了 GPT-4 的使用更加令人沮丧」，然而，根据报告，Cohere 的 AI 模型在任何回答中都没有使用警示语。研究显示，Claude 2 在「自我意识」方面最可靠，即准确评估自身所知与所不知，并且只回答具备支持性数据的问题。

Cohere 的一位发言人对这些结果提出了异议，称「Cohere 的检索自动生成技术未被测试，它对于给企业提供可验证的引用文献以确认信息来源非常有效」。

Wenchel 表示，用户和企业最重要的结论是「根据实际工作负载进行测试」，他随后补充道：「重要的是要了解它在你试图实现的任务上的性能」。

Wenchel 说：「很多基准测试仅仅关注 LLM 本身的某种衡量标准，但实际上在真实世界中并不是这样使用的。确保你真正了解 LLM 在实际应用中的表现是关键。」

阅读 Arthur AI研究报告：https://www.arthur.ai/gap

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
福布斯发布人工智能50强榜单 OpenAI、Anthropic等霸榜

福布斯发布了备受瞩目的第六届人工智能50强榜单，从1900家申请公司中精选出顶级的人工智能企业，展现了该行业的蓬勃发展和创新活力。评选过程严格，结合了算法分析和专家评审，突显了人工智能在提升生产力、推动创意应用和改善实体运营方面的日益重要性。AI将使公司能够更有效地管理知识和内容，提高安全性和信任度。

人工智能50强 OpenAI AI头条
扎克伯格表示 Meta 需要数年时间才能从生成式人工智能中盈利

生成式人工智能正在成为Meta的新赚钱重点，但该公司首席执行官马克·扎克伯格承认，这项技术目前还无法快速产生利润。在周三发布的第一季度财报电话会议上，扎克伯格向投资者传达了这一信息。扎克伯格表示，生成式AI可能需要几年时间才能成为真正的赚钱项目，但他相信这项技术最终将成为Meta的重要收入来源。

人工智能 Meta ChatGPT
英国科技部门正考虑监管人工智能模型的立法

英国科技、创新与技术部门的官员已开始起草监管人工智能模型的立法。目前尚不清楚未来的监管将如何与英国已存在的AI安全研究所交汇，该研究所已对最强大的AI模型进行安全测试。任何潜在的法案仍有很长的路要走。

人工智能 AI模型
OpenAI CEO 寻求阿联酋迪拜加入全球人工智能计划

OpenAICEOSamAltman最近前往阿联酋，提出了建立一个全球性政府和私人利益相关方联盟来资助、支持和供应人工智能产业的构想。Altman在本周会见了几位阿联酋官员和投资者，讨论了他们以及其他人如何共同努力以抵消人工智能基础设施所带来的巨额成本。即使英伟达预计仅今年就将三倍以上生产其H100和H200加速器，分析师警告称，需求可能会持续超过供应。

OpenAI AI头条
报告称：OpenAI和Meta即将发布具有人类推理能力的AI模型

OpenAI和Meta据称正在准备发布更先进的AI模型，这些模型将能够帮助解决问题并承担更复杂的任务。OpenAI的首席运营官BradLightcap告诉《金融时报》，公司下一个版本的GPT将在解决"困难问题"方面取得进展，例如推理。马斯克表示，"有感知计算的总量"——这个概念可能指的是AI独立思考和行动——将在五年内超过所有人类。

OpenAI Meta AI模型
照片分享平台EyeEm被收购后将用户照片用于训练人工智能模型

柏林照片分享社区EyeEm在去年被西班牙公司Freepik收购后，正在采取一项引发争议的举措-将用户上传的照片用于训练人工智能模型。EyeEm最近通过电子邮件通知用户，它正在其条款和条件中添加一项新条款，授予其"训练、开发和改进软件、算法和机器学习模型"的权利。开放社交网络Pixelfed已明确表示，它永远不会使用用户图像来训练AI模型，并以此吸引EyeEm的用户。
2024年Top100 AI公司报告发布:OpenAI、Anthropic和Databricks位列前三

CBInsights最近发布了2024年度Top100人工智能公司报告。该报告选择了来自16个国家/地区最具潜力的100家人工智能公司进行评选。该报告全面评估了来自16个国家/地区100家最具潜力的人工智能初创公司，为投资者和行业提供了有价值的参考。

人工智能公司 CB Insights
VoiceEngine官网体验入口 OpenAI人工智能语音克隆合成工具使用地址

VoiceEngine是OpenAI推出的一种先进的语音合成模型，它仅需15秒的语音样本，便能生成与原始说话人极为相似的自然语音。该模型广泛应用于教育、娱乐、医疗等领域，可为非读写人群提供朗读辅助、为视频和播客内容翻译语音、为非语言人群赋予独特语音等。通信辅助应用Livox使用VoiceEngine为失语症患者提供独特非机械般的语音，让他们选择最能代表自我的声音进行交流。

VoiceEngine
雅虎收购Artifact：将人工智能新闻技术融入旗下产品

雅虎宣布已从Instagram联合创始人KevinSystrom和MikeKrieger手中收购了人工智能驱动的新闻应用Artifact。Artifact这款应用自推出以来，就以其独特的人工智能技术吸引了广大用户的关注。这一成功的先例无疑为雅虎此次收购Artifact提供了信心和经验借鉴。

人工智能新闻应用深度学习
Meta的Threads日活用户超越 X，成为更受欢迎的社交平台

Meta旗下的社交平台Threads最近在美国的日活用户人数已经超过了埃隆・马斯克旗下的X。根据数据情报平台Apptopia的估计，自去年12月以来，Threads的日活用户在美国已经超过X。尽管X的月活跃用户仍远远超过Threads，Meta首席执行官马克・扎克伯格对此似乎并不担忧，他在二月份告诉投资者:“我很乐观地认为我们可以继续改进和增长的步伐，并展示一个友好的讨论型应用可以像最受欢迎的社交应用一样被广泛使用。

Meta Threads 美国

BrickCenter:一个创意无限的乐高设计平台，让你的想象力变为现实。

BrickCenter是一个在线平台，允许用户免费创建自己的乐高套装和迷你人物。它提供了一个将创意转化为详细乐高设计的工具，无论是复杂的场景还是个性化的迷你人物，用户都可以在这个平台上实现自己的设计梦想。该平台以其用户友好的界面和强大的定制功能而受到乐高爱好者的欢迎。

创意设计乐高

100 UI/UX Tips:在一个小时内学习如何制作令人印象深刻的应用程序界面。

《100 UI/UX Tips》提供了设计界面所需的所有提示，让用户感到满意。强调产品的主要优点、背景信息、价格和定位。

设计用户界面用户体验

whatwide.ai:提高生产力的AI助手，简单易用

whatwide.ai是一个提高生产力的AI助手，使用人工智能技术来节省时间并提高工作效率。它提供了50多种AI模型，包括文本生成、网站帮助、社交媒体分析、编程辅助等多种功能。whatwide.ai的优点在于高质量的内容生成、快速且安全的操作，以及多种AI类型供用户选择。

生产力文本生成网站帮助

Stream of Consciousness:一个展示想象中艺术家思绪的日常表演，通过创作和分享图像来表达创造力。

Stream of Consciousness是一个记录并分享艺术家思维的项目，通过创作和分享图像来展示创造力。它提供了一个深入艺术家思维的窗口，让人们了解艺术创作的过程和灵感的来源。

艺术创作思绪

Neurelo:是一种用于PostgreSQL、MongoDB和MySQL的云数据API平台，通过自动生成REST和GraphQL数据API、AI辅助的自定义查询API、查询可观察性等功能，简化和加速现代云应用程序开发。

Neurelo是一个专为云数据库而设计的平台，通过使用云API和人工智能技术，提供自动生成API、自定义查询API、查询可观察性和Schema as Code等功能，以提高开发人员的生产力。Neurelo能够简化数据库编程相关的复杂性，并具备可伸缩性、安全性和查询优化能力。

数据库云应用程序 API

EdrawMax:智能且风格多样的图表解决方案，简化您的想法可视化过程。

EdrawMax是一款功能强大的图表设计软件，它提供一站式的图表解决方案，适用于流程图、思维导图、组织结构图、甘特图、平面图和ER图等210多种图表类型。它具有简洁的用户界面，类似于MS Office的干净、整齐的界面，直观且易于导航的工具集，以及无缝的拖放功能。此外，EdrawMax还提供了23000多个用户制作的模板，850个精心制作的内置模板，以及26000多个免费符号，覆盖所有图表类型。它还具备AI功能，可以生成和分析22种类型的图表，包括文本到绘图和图片到绘图以及AI聊天。EdrawMax支持跨平台集成，可以在云端保存文件并通过链接共享，支持通过社交媒体或电子邮件发送作品，并能以13种格式导出图表，包括VSDX、PPTX和SVG等。此外，EdrawMax遵循GDPR标准，使用最高级别的256位SSL加密，确保用户隐私和数据安全。

图表设计 AI生成跨平台

Notta Showcase:通过AI技术，轻松实现视频的多语言翻译和配音，连接全球观众。

Notta Showcase是一款在线视频翻译和配音工具，它通过AI技术帮助用户将视频内容翻译成15种不同的语言，同时保持原始的语音风格和情感，以提供自然的听觉体验。该产品的主要优点包括高效率、成本效益、用户友好的界面、高准确度的转录和翻译，以及支持多种文件格式和平台。它适用于营销、社交媒体和教育等多个领域，可以显著扩大内容的全球影响力。

AI翻译视频配音内容本地化

SunoAI API:开源项目，实现AI音乐服务的API接口

Suno API是一个开源项目，允许用户设置自己的Suno AI音乐服务API。它实现了app.suno.ai的创建API，兼容OpenAI的API格式，支持自定义模式，一键部署到Vercel，并且拥有开放源代码许可证，允许自由集成和修改。

AI音乐 API 开源

x-crawl:灵活的 Node.js AI 辅助爬虫库，让爬虫工作更高效、智能、便捷。

x-crawl 是一款基于 Node.js 的 AI 辅助爬虫库，它通过强大的 AI 辅助功能，使得爬虫工作变得更加高效、智能和便捷。它支持对动态页面、静态页面、接口数据以及文件数据的爬取，同时提供了自动化操作、键盘输入、事件操作等控制页面的能力。此外，它还具备设备指纹、异步同步、间隔爬取、失败重试、轮换代理、优先队列和记录爬取等功能，以适应不同的爬取需求。x-crawl 拥有类型，通过泛型实现完整的类型，基于 MIT 许可发布，适合需要进行数据爬取的开发者和企业。

爬虫 AI辅助自动化

MetaCLIP:一种用于图像和文本数据的先进机器学习模型，专注于数据质量和透明度。

MetaCLIP是一个开源的机器学习模型，用于图像和文本的联合表示学习。它通过一个简单算法对CLIP数据进行筛选，不依赖于先前模型的过滤，从而提高了数据的质量和透明度。MetaCLIP的主要贡献包括无过滤的数据筛选、透明的训练数据分布、可扩展的算法和标准化的CLIP训练设置。该模型强调数据质量的重要性，并提供预训练模型，以支持研究人员和开发者进行控制实验和公平比较。

机器学习图像识别文本处理

AITown:一个虚拟城镇，AI角色在这里生活、聊天和社交。

AI Town是一个基于MIT许可的可部署启动套件，用于构建和定制您自己的AI城镇版本。这个项目受到了研究论文'Generative Agents: Interactive Simulacra of Human Behavior'的启发，旨在提供一个强大的基础平台，旨在被扩展。后端原生支持共享全局状态、事务和模拟引擎，适用于从简单的项目到可扩展的多人游戏。

AI 虚拟城镇聊天模拟

Vanna:通过自然语言生成SQL查询，简化数据库交互。

Vanna是一个使用Retrieval-Augmented Generation (RAG) 技术的开源Python框架，用于SQL生成和相关功能。它通过训练RAG模型，将自然语言问题转换为SQL查询，从而允许用户以提问的形式与数据库进行交互。Vanna的主要优点包括高准确度、安全性、私有性、自学习能力，并且支持任何SQL数据库。

SQL 自然语言处理数据库

Fal AI:AI图片生成式开发者平台

fal.ai 是一款面向开发者的生成媒体平台，提供了业界最快的推理引擎，可以让您以更低的成本运行扩散模型，创造出全新的用户体验。它拥有实时、无缝的 WebSocket 推理基础设施，为开发者带来了卓越的使用体验。fal.ai 的定价方案根据实际使用情况灵活调整，确保您只为消耗的计算资源付费，实现了最佳的可扩展性和经济性。

生成媒体推理引擎开发者工具

Chat With Llama 3:一个开源的聊天机器人，能够解释概念、写诗、编程、解逻辑谜题。

Chat With Llama 3 是一个开源的聊天机器人，由Meta AI开发。它能够进行多种智能对话，包括解释复杂概念、创作诗歌、编写代码、解决逻辑谜题，甚至帮助用户给宠物起名。这个聊天机器人的主要优点在于它的多功能性和开源性，使其可以被广泛地应用于各种场景，并且可以根据需要进行定制和改进。

人工智能聊天机器人开源

AI图片生成与搜索:释放创意，一键生成或搜索超过200万张AI图片。

AI图片生成与搜索是一个在线平台，利用先进的人工智能技术，允许用户快速生成或搜索各种风格的AI图片。该技术的重要性在于它能够极大提高设计和创意工作的效率，同时降低成本。产品的主要优点包括丰富的图片资源、高效的生成速度、以及用户友好的界面。产品背景信息显示，这是一个面向广大创意工作者和设计师的工具，旨在帮助他们快速实现创意构想。目前，该产品提供免费试用，但具体价格和定位信息未在页面中提供。

AI技术图像生成创意工具

OpenPerplex:，您的知识门户

OpenPerplex是一个提供广泛知识资源的在线平台，它通过整合多种信息源，为用户提供了一个便捷的知识获取渠道。该产品以其丰富的信息量、高效的检索能力和友好的用户界面而受到用户的青睐。它不仅适用于个人学习，也适合专业人士进行深入研究。

知识获取信息检索在线学习

JavaVision:基于Java的全能视觉智能识别项目

JavaVision是一个基于Java开发的全能视觉智能识别项目，它不仅实现了PaddleOCR-V4、YoloV8物体识别、人脸识别、以图搜图等核心功能，还可以轻松扩展到其他领域，如语音识别、动物识别、安防检查等。项目特点包括使用SpringBoot框架、多功能性、高性能、可靠稳定、易于集成和灵活可拓展。JavaVision旨在为Java开发者提供一个全面的视觉智能识别解决方案，让他们能够以熟悉且喜爱的编程语言构建出先进、可靠且易于集成的AI应用。

人工智能计算机视觉人脸识别

RMBG:利用AI技术，快速高效地从您的图片中移除背景。

AI-Powered Background Removal（AI驱动的背景移除）是一款基于AI技术的在线工具，它能够快速且高效地从用户上传的图片中移除背景。该工具的主要优点在于其隐私保护和本地执行能力，即图片处理在用户设备上完成，无需上传至互联网，保证了数据的安全性和处理速度。此外，作为一款开源且完全免费的工具，它极大地释放了用户的创造力，无需担心成本问题。

AI技术背景移除图片编辑

SearchForJohn:一个专注于搜索功能的在线工具

SearchForJohn是一个在线搜索工具，旨在帮助用户快速找到所需的信息。它以简洁的界面和高效的搜索算法为特点，为用户提供了一个便捷的信息检索平台。该产品的主要优点包括快速响应、准确的搜索结果和用户友好的界面设计。SearchForJohn的背景信息显示，它是由一群对搜索技术充满热情的开发者创建的，旨在解决用户在信息过载时代中寻找特定信息的难题。目前，该产品提供免费试用，但具体价格和定位信息未在页面上明确展示。

搜索信息检索用户友好

OpenBioLLM-Llama3-8B:一款专为生物医学领域设计的开源大型语言模型

OpenBioLLM-8B是由Saama AI Labs开发的先进开源语言模型，专为生物医学领域设计。该模型在大量高质量的生物医学数据上进行了微调，能够理解并生成具有领域特定准确性和流畅性的文字。它在生物医学基准测试中的表现超越了其他类似规模的开源生物医学语言模型，并与更大的专有和开源模型如GPT-3.5和Meditron-70B相比也展现出更好的结果。

Meta、OpenAI、Anthropic 和 Cohere 人工智能模型都在胡编乱造 —— 哪个最糟糕？

今日大家都在搜的词：

热文

站长商机