首页 > AI头条  > 正文

AI 基准测试平台 Chatbot Arena 成立一家新公司

2025-04-18 12:00 · 来源: AIbase基地

在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道,Chatbot Arena 旨在通过这家新公司获取更多资源,从而显著改善其平台的功能和服务。

QQ_1744948775002.png

Chatbot Arena 成立于2023年,主要由加州大学伯克利分校的研究人员主导。该平台为大型 AI 实验室提供了一个共享的测试环境,许多知名企业,如 OpenAI、谷歌和 Anthropic 等,均与 Chatbot Arena 合作,让其旗舰模型在这个社区中进行评估和测试。这个平台的兴起,吸引了众多关注,成为了 AI 行业的重要组成部分。

在此之前,Chatbot Arena 的运营资金主要来源于各种资助和捐款,包括谷歌的 Kaggle 数据科学平台、Andreessen Horowitz 和 Together AI 等机构。如今,随着 Arena Intelligence Inc. 的成立,尽管该组织尚未披露新公司的潜在投资者,也未决定未来的商业模式,但他们表示,将继续为 AI 提供一个中立的测试平台,确保不受外部利益的影响。

通过新公司的成立,Chatbot Arena 团队希望能够提升测试平台的能力,为 AI 行业提供更优质的服务。这一进展将进一步推动 AI 技术的发展,并为研究人员、开发者以及相关企业提供更为可靠的基准测试工具。

划重点:

🌟 Chatbot Arena 成立新公司 Arena Intelligence Inc.,旨在获取更多资源以改善平台功能。  

🤝 该平台由 UC Berkeley 研究人员主导,与 OpenAI、谷歌和 Anthropic 等公司合作,提供 AI 模型评测。  

💼 运营资金来源于各种资助和捐款,未来的商业模式尚未确定,但将继续保持中立性。  

  • 相关推荐
  • o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

    OpenAI的新AI模型o3在第一方和第三方基准测试中存在差异,引发公众对其透明度和测试实践的质疑。去年12月,o3首次亮相时声称能解答超过25%的FrontierMath问题,但实际正确率仅为2%。内部测试发现,o3能达到超过25%的准确率,但其使用的计算资源比上周OpenAI推出的模型多得多。Epoch AI发布的独立基准测试结果显示,o3的得分约为10%,远低于OpenAI宣称的25%。尽管如此,这并不意味着OpenAI的说法有误,可能是因为OpenAI使用了更强大的内部架构进行评估,并采用了更多计算资源。此外,Epoch指出其测试设置可能与OpenAI不同,并且在评估中使用了更新版本的FrontierMath。

  • OpenAI高管计划收购谷歌Chrome:对ChatGPT搜索至关重要

    OpenAI高管Nick Turley在谷歌反垄断庭审中透露,若法院裁定谷歌必须出售Chrome浏览器以恢复搜索市场竞争,OpenAI有意收购。庭审揭露OpenAI曾主动寻求与谷歌合作获取搜索技术支持,但遭拒绝。目前ChatGPT仍依赖微软必应搜索技术。Turley承认搜索功能对ChatGPT至关重要,但实现80%查询使用自有搜索技术仍需数年时间。他支持司法部要求谷歌共享搜索数据的提议,认为这将加速ChatGPT技术改进。这场诉讼揭示了AI领域激烈竞争的冰山一角,检方担忧谷歌搜索垄断可能延伸至AI领域。

  • 用户吐槽“ChatGPT太谄媚”,OpenAI 回滚“个性化”更新

    OpenAI 想要为 ChatGPT 塑造一个更友好、更具支持性的个性。他们最新发布的更新确实符合这一描述,但有点过界了……

  • 累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”!

    向 AI 倾诉情感在短期内可能会带来安慰,但过度依赖则存在风险。通过即时的回应可以获得暂时的稳定感,但从长远来看,这会让人失去培养情绪调节能力和解决问题能力的机会……

  • 科大讯飞等在湖北成立新公司 均涉及AI人工智能

    湖北小雅科技有限公司注册资本5000万元人民币,法定代表人为聂小林,经营范围涵盖人工智能应用软件开发、基础软件开发及理论与算法研究等细分领域。股东结构显示,该公司由科大讯飞旗下子公司讯飞华中(武汉)有限公司联合武汉博成众智科技投资合伙企业(有

  • 刚刚,OpenAI大更新ChatGPT搜索,周搜索量10亿次

    OpenAI对ChatGPT搜索功能进行重大升级,重点优化网购体验。现在用户可直接搜索商品并查看价格、详情和评价,还能跳转购买链接。该功能面向所有用户开放,支持中英文搜索,搜索结果会匹配提示词语言。过去一周搜索量已超10亿次,成为ChatGPT核心功能之一。新功能让用户能直接在ChatGPT完成商品比价和购买决策,大幅简化网购流程。虽然目前主要通过导流变现,但未来可能拓展更多电商服务。这次升级标志着ChatGPT正从纯聊天工具向多功能平台演进。

  • 网易数帆携手人民中科,联合发布首款可信ChatBI一体机

    近日,网易数帆与人民中科联合发布了行业内首款可信ChatBI一体机,为政府机构、高等院校、国央企等客户提供安全可靠的本地化智能办公方案,推动智能应用在关键业务的深度落地。01强强联合,打造自主可控的智能办公新设施在数字化转型加速的背景下,政企客户对数据安全与智能化办公的需求持续升级。为此,网易数帆与人民中科依托双方在AI大模型、高性能计算及信息�

  • GPTBots 集成阿里通义千问 3.0,持续为企业提供顶尖 AI 服务

    GPTBots.ai平台宣布完成与阿里通义千问3.0系列模型的技术集成,成为企业级AI智能体构建领域的标杆平台。该平台通过混合推理架构和多语言交互技术,支持119种语言服务,覆盖全球主要市场。平台提供双模式智能任务处理:针对复杂业务场景的"深度思考"模式,以及高频咨询的"即时响应"模式。搭载Qwen-3-235B旗舰模型和Qwen-3-30B轻量版,在代码生成、数学推理等核心能力上达到行业顶尖水平。平台实现与企业ERP、CRM等系统的无缝对接,推动数据价值变现。通过标准化流程自动化、全球化服务等核心价值,帮助企业提升运营效率70%、降低客服成本70%,并实现数据驱动的决策升级。

  • 女子爱上ChatGPT要与丈夫离婚:准备与AI男友举办婚礼

    夏洛特透露,她跟前夫年轻时在夜店相识,同居不久后就怀孕。随后,她嫁给了他,当时她才21岁。虽然两人结婚20年了,但她认为那样的关系根本不是真爱”。

  • “你可能患了血癌……” 医生诊断错误,而 ChatGPT 是对的!

    “当身体出现异常时,积极查明原因是很重要的。”  接受抗癌治疗后的玛琳这样说道……

今日大家都在搜的词: