首页 > AI头条  > 正文

AI 基准测试平台 Chatbot Arena 成立一家新公司

2025-04-18 12:00 · 来源: AIbase基地

在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道,Chatbot Arena 旨在通过这家新公司获取更多资源,从而显著改善其平台的功能和服务。

QQ_1744948775002.png

Chatbot Arena 成立于2023年,主要由加州大学伯克利分校的研究人员主导。该平台为大型 AI 实验室提供了一个共享的测试环境,许多知名企业,如 OpenAI、谷歌和 Anthropic 等,均与 Chatbot Arena 合作,让其旗舰模型在这个社区中进行评估和测试。这个平台的兴起,吸引了众多关注,成为了 AI 行业的重要组成部分。

在此之前,Chatbot Arena 的运营资金主要来源于各种资助和捐款,包括谷歌的 Kaggle 数据科学平台、Andreessen Horowitz 和 Together AI 等机构。如今,随着 Arena Intelligence Inc. 的成立,尽管该组织尚未披露新公司的潜在投资者,也未决定未来的商业模式,但他们表示,将继续为 AI 提供一个中立的测试平台,确保不受外部利益的影响。

通过新公司的成立,Chatbot Arena 团队希望能够提升测试平台的能力,为 AI 行业提供更优质的服务。这一进展将进一步推动 AI 技术的发展,并为研究人员、开发者以及相关企业提供更为可靠的基准测试工具。

划重点:

🌟 Chatbot Arena 成立新公司 Arena Intelligence Inc.,旨在获取更多资源以改善平台功能。  

🤝 该平台由 UC Berkeley 研究人员主导,与 OpenAI、谷歌和 Anthropic 等公司合作,提供 AI 模型评测。  

💼 运营资金来源于各种资助和捐款,未来的商业模式尚未确定,但将继续保持中立性。  

  • 相关推荐
  • o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

    OpenAI的新AI模型o3在第一方和第三方基准测试中存在差异,引发公众对其透明度和测试实践的质疑。去年12月,o3首次亮相时声称能解答超过25%的FrontierMath问题,但实际正确率仅为2%。内部测试发现,o3能达到超过25%的准确率,但其使用的计算资源比上周OpenAI推出的模型多得多。Epoch AI发布的独立基准测试结果显示,o3的得分约为10%,远低于OpenAI宣称的25%。尽管如此,这并不意味着OpenAI的说法有误,可能是因为OpenAI使用了更强大的内部架构进行评估,并采用了更多计算资源。此外,Epoch指出其测试设置可能与OpenAI不同,并且在评估中使用了更新版本的FrontierMath。

  • GPTBots.ai携手EasyCraft,共拓AI智能体海外新市场

    GPTBots.ai携手EasyCraft,共拓AI智能体海外新市场近日,GPTBots.ai与EasyCraft宣布达成战略合作,旨在将AI智能体深度融入业务流程自动化、知识管理以及多平台协作之中,重新定义企业数字化转型的边界。作为一家领先的信息和业务自动化平台服务商,EasyCraft致力于为传统企业办公赋能创新,引领大数据及AI时代下的智慧办公新方式。我们期待在未来的日子里,共同开创更多的可能性,携手前进,共同推进企业数字化转型的进程。

  • OpenAI高管计划收购谷歌Chrome:对ChatGPT搜索至关重要

    OpenAI高管Nick Turley在谷歌反垄断庭审中透露,若法院裁定谷歌必须出售Chrome浏览器以恢复搜索市场竞争,OpenAI有意收购。庭审揭露OpenAI曾主动寻求与谷歌合作获取搜索技术支持,但遭拒绝。目前ChatGPT仍依赖微软必应搜索技术。Turley承认搜索功能对ChatGPT至关重要,但实现80%查询使用自有搜索技术仍需数年时间。他支持司法部要求谷歌共享搜索数据的提议,认为这将加速ChatGPT技术改进。这场诉讼揭示了AI领域激烈竞争的冰山一角,检方担忧谷歌搜索垄断可能延伸至AI领域。

  • 阿里到底是不是一家AI公司

    前几天和潘乱录播客,聊到这波中概股价值重估的影响,以及阿里是怎么成了最大赢家的,很有意思,一边是阿里言必称AI,另一边是拼多多在AI上毫无动作,两家对头突然就分道扬镳了。其实从今年年初阿里的股价坐上火箭之后,关于阿里到底是不是一家AI公司一直都是一个很有争议的问题,即使我们相信「聪明钱」,也要看看它们的逻辑。

  • Snapchat AI驱动AR滤镜惊艳亮相,谷歌/微美全息完善底层技术掘金AI眼镜蓝海

    公司正在推出其首款视频生成AI滤镜,可供开通高级订阅套餐SnapchatPlatinum的用户使用,目前该套餐月费为15.99美元。目前Snapchat已经发布了三款名为“浣熊”、“狐狸”和“春花”的AI滤镜,此外,后续还将会上线更多AI滤镜体验。

  • ChatGPT图像生成爆火!OpenAI CEO在线求助:急需10万块GPU

    OpenAI近期推出的全新图像生成工具引发了热潮,用户使用ChatGPT即可创作出吉卜力等风格的AI艺术作品。这一功能不仅推动了ChatGPT用户数的创新高导致服务器负担过重,甚至一度限制了该功能的使用。SensorTower的数据显示,ChatGPT应用的全球下载量和每周活跃用户数分别较上周增长了11%和5%应用内购买收入则增加了6%。

  • 网易数帆携手人民中科,联合发布首款可信ChatBI一体机

    近日,网易数帆与人民中科联合发布了行业内首款可信ChatBI一体机,为政府机构、高等院校、国央企等客户提供安全可靠的本地化智能办公方案,推动智能应用在关键业务的深度落地。01强强联合,打造自主可控的智能办公新设施在数字化转型加速的背景下,政企客户对数据安全与智能化办公的需求持续升级。为此,网易数帆与人民中科依托双方在AI大模型、高性能计算及信息�

  • 有心理问题找 ChatGPT?但研究表明:AI也会变得焦虑……

    24岁的大学生A某患有重度抑郁症和恐慌症。由于上学时会突发惊恐发作,因此即使是正常出勤于他言那都很困难,甚至上学期间收到了退学警告。研究团队表示,本次研究“暗示着AI能够在心理健康管理领域发挥重要作用”、“正在探索将AI用作心理健康专家辅助工具的方法,且将重点放在了提高对弱势群体的可及性上”。

  • 刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

    今天凌晨1点,OpenAI开源了一个全新的AIAgent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。目前智能体的能力还无法超越人类。

  • 奥特曼:ChatGPT不是AGI!OpenAI最强开源模型直击DeepSeek

    【新智元导读】代码截图泄露,满血版o3、o4-mini锁定下周!更劲爆的是,一款据称是OpenAI的神秘模型一夜爆红,每日处理高达260亿token,是Claude用量4倍。奥特曼在TED放话:将推超强开源模型,直面DeepSeek挑战。持续的创新、丰富的资源和智能AI将会无缝融入日常生活,未来一代人将会觉得当前人们又辛苦又落后。

今日大家都在搜的词: