AI 基准测试平台 Chatbot Arena 成立一家新公司

2025-04-18 12:00 · 来源： AIbase基地

在 AI 行业快速发展的背景下，Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力，正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道，Chatbot Arena 旨在通过这家新公司获取更多资源，从而显著改善其平台的功能和服务。

Chatbot Arena 成立于2023年，主要由加州大学伯克利分校的研究人员主导。该平台为大型 AI 实验室提供了一个共享的测试环境，许多知名企业，如 OpenAI、谷歌和 Anthropic 等，均与 Chatbot Arena 合作，让其旗舰模型在这个社区中进行评估和测试。这个平台的兴起，吸引了众多关注，成为了 AI 行业的重要组成部分。

在此之前，Chatbot Arena 的运营资金主要来源于各种资助和捐款，包括谷歌的 Kaggle 数据科学平台、Andreessen Horowitz 和 Together AI 等机构。如今，随着 Arena Intelligence Inc. 的成立，尽管该组织尚未披露新公司的潜在投资者，也未决定未来的商业模式，但他们表示，将继续为 AI 提供一个中立的测试平台，确保不受外部利益的影响。

通过新公司的成立，Chatbot Arena 团队希望能够提升测试平台的能力，为 AI 行业提供更优质的服务。这一进展将进一步推动 AI 技术的发展，并为研究人员、开发者以及相关企业提供更为可靠的基准测试工具。

划重点:
🌟 Chatbot Arena 成立新公司 Arena Intelligence Inc.，旨在获取更多资源以改善平台功能。
🤝 该平台由 UC Berkeley 研究人员主导，与 OpenAI、谷歌和 Anthropic 等公司合作，提供 AI 模型评测。
💼 运营资金来源于各种资助和捐款，未来的商业模式尚未确定，但将继续保持中立性。

相关推荐

o3模型基准测试分数仅为10%，远低于OpenAI宣传的25%

OpenAI的新AI模型o3在第一方和第三方基准测试中存在差异，引发公众对其透明度和测试实践的质疑。去年12月，o3首次亮相时声称能解答超过25%的FrontierMath问题，但实际正确率仅为2%。内部测试发现，o3能达到超过25%的准确率，但其使用的计算资源比上周OpenAI推出的模型多得多。Epoch AI发布的独立基准测试结果显示，o3的得分约为10%，远低于OpenAI宣称的25%。尽管如此，这并不意味着OpenAI的说法有误，可能是因为OpenAI使用了更强大的内部架构进行评估，并采用了更多计算资源。此外，Epoch指出其测试设置可能与OpenAI不同，并且在评估中使用了更新版本的FrontierMath。

openai ChatGPT o3模型
GPTBots.ai携手EasyCraft，共拓AI智能体海外新市场

GPTBots.ai携手EasyCraft，共拓AI智能体海外新市场近日，GPTBots.ai与EasyCraft宣布达成战略合作，旨在将AI智能体深度融入业务流程自动化、知识管理以及多平台协作之中，重新定义企业数字化转型的边界。作为一家领先的信息和业务自动化平台服务商，EasyCraft致力于为传统企业办公赋能创新，引领大数据及AI时代下的智慧办公新方式。我们期待在未来的日子里，共同开创更多的可能性，携手前进，共同推进企业数字化转型的进程。

AI智能体数字化转型业务流程自动化
OpenAI高管计划收购谷歌Chrome：对ChatGPT搜索至关重要

OpenAI高管Nick Turley在谷歌反垄断庭审中透露，若法院裁定谷歌必须出售Chrome浏览器以恢复搜索市场竞争，OpenAI有意收购。庭审揭露OpenAI曾主动寻求与谷歌合作获取搜索技术支持，但遭拒绝。目前ChatGPT仍依赖微软必应搜索技术。Turley承认搜索功能对ChatGPT至关重要，但实现80%查询使用自有搜索技术仍需数年时间。他支持司法部要求谷歌共享搜索数据的提议，认为这将加速ChatGPT技术改进。这场诉讼揭示了AI领域激烈竞争的冰山一角，检方担忧谷歌搜索垄断可能延伸至AI领域。

OpenAI 谷歌反垄断 Chrome浏览器
荐阿里到底是不是一家AI公司？

前几天和潘乱录播客，聊到这波中概股价值重估的影响，以及阿里是怎么成了最大赢家的，很有意思，一边是阿里言必称AI，另一边是拼多多在AI上毫无动作，两家对头突然就分道扬镳了。其实从今年年初阿里的股价坐上火箭之后，关于阿里到底是不是一家AI公司一直都是一个很有争议的问题，即使我们相信「聪明钱」，也要看看它们的逻辑。

中概股阿里巴巴价值重估
Snapchat AI驱动AR滤镜惊艳亮相，谷歌/微美全息完善底层技术掘金AI眼镜蓝海

公司正在推出其首款视频生成AI滤镜，可供开通高级订阅套餐SnapchatPlatinum的用户使用，目前该套餐月费为15.99美元。目前Snapchat已经发布了三款名为“浣熊”、“狐狸”和“春花”的AI滤镜，此外，后续还将会上线更多AI滤镜体验。

Snapchat AI滤镜视频生成
ChatGPT图像生成爆火！OpenAI CEO在线求助：急需10万块GPU

OpenAI近期推出的全新图像生成工具引发了热潮，用户使用ChatGPT即可创作出吉卜力等风格的AI艺术作品。这一功能不仅推动了ChatGPT用户数的创新高导致服务器负担过重，甚至一度限制了该功能的使用。SensorTower的数据显示，ChatGPT应用的全球下载量和每周活跃用户数分别较上周增长了11%和5%应用内购买收入则增加了6%。

OpenAI ChatGPT 图像生成
网易数帆携手人民中科，联合发布首款可信ChatBI一体机

近日，网易数帆与人民中科联合发布了行业内首款可信ChatBI一体机，为政府机构、高等院校、国央企等客户提供安全可靠的本地化智能办公方案，推动智能应用在关键业务的深度落地。01强强联合，打造自主可控的智能办公新设施在数字化转型加速的背景下，政企客户对数据安全与智能化办公的需求持续升级。为此，网易数帆与人民中科依托双方在AI大模型、高性能计算及信息�

智能办公可信ChatBI 数据安全
有心理问题找 ChatGPT？但研究表明：AI也会变得焦虑……

24岁的大学生A某患有重度抑郁症和恐慌症。由于上学时会突发惊恐发作，因此即使是正常出勤于他言那都很困难，甚至上学期间收到了退学警告。研究团队表示，本次研究“暗示着AI能够在心理健康管理领域发挥重要作用”、“正在探索将AI用作心理健康专家辅助工具的方法，且将重点放在了提高对弱势群体的可及性上”。

心理健康人工智能抑郁症
荐刚刚，OpenAI开源PaperBench，重塑顶级AI Agent评测

今天凌晨1点，OpenAI开源了一个全新的AIAgent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力，需要对2024年国际机器学习大会上顶尖论文的复现，包括对论文内容的理解、代码编写以及实验执行等方面的能力。目前智能体的能力还无法超越人类。

AI Agent PaperBench
奥特曼：ChatGPT不是AGI！OpenAI最强开源模型直击DeepSeek

【新智元导读】代码截图泄露，满血版o3、o4-mini锁定下周!更劲爆的是，一款据称是OpenAI的神秘模型一夜爆红，每日处理高达260亿token，是Claude用量4倍。奥特曼在TED放话:将推超强开源模型，直面DeepSeek挑战。持续的创新、丰富的资源和智能AI将会无缝融入日常生活，未来一代人将会觉得当前人们又辛苦又落后。

代码泄露 OpenAI 模型发布

今日大家都在搜的词：

热文

3 天
7天

AI 基准测试平台 Chatbot Arena 成立一家新公司

o3模型基准测试分数仅为10%，远低于OpenAI宣传的25%

GPTBots.ai携手EasyCraft，共拓AI智能体海外新市场

OpenAI高管计划收购谷歌Chrome：对ChatGPT搜索至关重要

荐阿里到底是不是一家AI公司？

Snapchat AI驱动AR滤镜惊艳亮相，谷歌/微美全息完善底层技术掘金AI眼镜蓝海

ChatGPT图像生成爆火！OpenAI CEO在线求助：急需10万块GPU

网易数帆携手人民中科，联合发布首款可信ChatBI一体机

有心理问题找 ChatGPT？但研究表明：AI也会变得焦虑……

荐刚刚，OpenAI开源PaperBench，重塑顶级AI Agent评测

奥特曼：ChatGPT不是AGI！OpenAI最强开源模型直击DeepSeek

今日大家都在搜的词：

热文

Anthropic警告：距离无人干涉的 “AI员工” 时代，只剩一年了！

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

4chan 之“死”：互联网最狂野的角落逐渐消逝！

英特尔本周宣布裁员超20%计划，陈立武上任后的首次重大重组

马斯克回归消息传出后，特斯拉股价飙升10%

REDMI Turbo 4 Pro外观首次公布配备金属边框

Anthropic警告：距离无人干涉的 “AI员工” 时代，只剩一年了！

“礼貌用语”太费钱？奥特曼：让 OpenAI 损失了数千万美元

荣耀GT Pro首发骁龙8至尊领先版跑分最高破344万

反垄断案中，谷歌披露 Gemini 月活达3.5亿，日流量为3500万

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

4chan 之“死”：互联网最狂野的角落逐渐消逝！

“两年后，垃圾邮件问题将被解决”，谁在 2004 年说了这样的话

英特尔本周宣布裁员超20%计划，陈立武上任后的首次重大重组

马斯克回归消息传出后，特斯拉股价飙升10%

站长商机