首页 > AI头条  > 正文

Minecraft变身AI竞技场:高中生打造创新模型评测平台

2025-03-21 09:45 · 来源: AIbase基地

一位12年级学生建立了一个创新平台,让人们能够评估不同AI模型在Minecraft创作中的表现,为人工智能评测领域带来了新的视角。

新基准测试方法应对传统评估局限性

随着传统AI基准测试方法的局限性日益明显,开发者们开始寻找更具创造性的评估途径。对一群开发者而言,微软旗下的沙盒建造游戏Minecraft成为了理想选择。

高中生Adi Singh与团队合作开发的Minecraft Benchmark(简称MC-Bench)网站允许AI模型在面对面的挑战中相互竞争,通过Minecraft创作来回应各种提示。用户可以投票选出表现更佳的模型,投票后才能看到每个作品背后的AI制作者。

Singh表示,选择Minecraft作为测试平台是因为其广泛的知名度——作为有史以来最畅销的电子游戏,即使对从未玩过的人来说,也能直观判断哪个块状菠萝更胜一筹。

"Minecraft让人们更容易看到AI开发的进展,"Singh告诉TechCrunch。"人们已经习惯了Minecraft,习惯了它的外观和氛围。"

QQ20250321-094417.png

项目获得主要AI公司支持

MC-Bench目前有8名志愿者参与。根据网站信息,Anthropic、Google、OpenAI和阿里巴巴已为该项目提供补贴,允许使用它们的产品运行基准测试,但这些公司与项目没有其他关联。

Singh分享了项目的未来愿景:"目前,我们只是进行简单的构建,反思我们与GPT-3时代相比取得的进步,但我们计划扩展到长期规划和目标导向任务。游戏可能只是测试代理推理的媒介,它比现实生活更安全,在测试方面更易于控制,在我看来这更理想。"

除Minecraft外,《精灵宝可梦红》、《街头霸王》和《你画我猜》等游戏也被用作AI实验基准,部分原因是AI基准测试本身极具挑战性。

QQ20250321-094426.png

直观评估替代复杂指标

研究人员通常在标准化评估中测试AI模型,但这些测试往往让AI拥有主场优势。由于训练方式的特点,模型天生擅长某些类型的问题,尤其是涉及记忆或基本推理的任务。

这种矛盾体现在多个案例中:OpenAI的GPT-4能在LSAT考试中取得88%的成绩,却无法准确数出"strawberry"一词中有多少个"R";Anthropic的Claude3.7Sonnet在标准化软件工程基准测试中准确率达62.3%,但在玩Pokémon游戏方面却不如大多数五岁儿童。

从技术角度看,MC-Bench是一个编程基准,要求模型编写代码来创建指定的构建,如"雪人弗罗斯蒂"或"原始沙滩上迷人的热带海滩小屋"。但对大多数用户而言,评估雪人外观比深入分析代码更直观,这使得该项目具有更广泛的吸引力,有望收集更多关于模型表现的数据。

虽然这些分数对AI实用性的影响仍有待商榷,但Singh坚信这是一个有力信号:"目前的排行榜与我自己使用这些模型的经验非常接近,这与许多纯文本基准测试不同。也许MC-Bench可以帮助公司了解他们是否朝着正确的方向前进。"

  • 相关推荐
  • 最新AI模型哪里看?查找最佳AI模型平台推荐

    文章介绍了AI领域快速迭代背景下,开发者如何高效追踪最新模型动态。主要渠道包括:1)官方渠道(GitHub、公司官网/博客);2)科技媒体和社区(Twitter、Reddit等);3)专业聚合平台(推荐AIbase模型广场)。重点推荐AIbase平台,其优势在于:实时更新全球最新模型、结构化展示关键信息、支持多维筛选排序、直达相关资源链接。建议开发者善用官方渠道获取源头信息,同时�

  • A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

    【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。

  • “科技+法治”融合创新!itc保伦股份全面助力重庆某司法局打造司法行政“最强大脑”

    重庆某司法局与ITC保伦股份合作打造"数字法治·智慧司法"指挥中心,通过无纸化会议系统、远程视频会议系统等智能化解决方案,实现司法行政工作数字化升级。系统具备国产化CPU、嵌入式操作系统等核心技术,确保数据安全;支持4K高清视频传输和智能中控,提升会议效率和应急指挥能力。项目实现了多系统联动管理,形成"司法大脑",助力司法行政工作高效开展,成为智慧司法建设的标杆案例。

  • AI深度赋能!itc智慧会议室重构协作场景,打造沉浸式会议新范式

    ITC保伦股份将AI技术深度融入音视频会议系统,推出三大智能化升级方案:1)AI+远程视频会议系统实现98%准确率的实时语音转写、跨语言同声传译、4K超分画质和人脸识别签到功能;2)AI+智慧会议平板集成降噪、声源追踪技术,自动生成结构化会议纪要;3)AI+分布式综合管理平台具备50余种智能监测分析能力,支持应急指挥决策。通过AI赋能会议全流程,打造"会前-会中-会后"闭环,推动企业数字化协作升级,引领智慧会议行业变革。

  • AI日报:字节将发布AI编程工具TRAE2.0版本;Mistral重磅推出音频模型Voxtral;月之暗面回应Kimi K2 API速度慢

    AI日报栏目聚焦AI领域最新动态:1)字节跳动将发布TRAE 2.0编程工具,新增语音交互功能;2)Mistral推出开源音频模型Voxtral,支持多语言;3)月之暗面回应Kimi K2API速度慢问题,正在优化系统;4)昆仑万维发布AgentOrchestra框架,实现多智能体协作;5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资;6)Kimi-2上线,性能超越GPT-4.1;7)TRAE推出Kimi-K2模型服务,国际版支持Grok-4;8)字节跳动Seed�

  • 告别模型搜寻困境:AIbase模型广场让你高效找到最佳AI模型

    文章探讨了在AI技术快速发展背景下,如何高效发现和评估适合需求的AI模型这一核心挑战。传统方式存在模型分散、评估门槛高、应用场景模糊等问题。AIbase模型广场通过聚合主流平台模型、提供多维度评估(性能指标、用户反馈、易用性等)、强化场景连接(按业务问题分类)和部署辅助信息,构建了完整的模型发现与应用生态。该平台能显著提升效率,帮助开发者快速锁�

  • TDBC大会揭幕:百度智能云再造数据与AI新连接,激活大模型生命线

    中国通信标准化协会等机构联合主办的"TDBC2025可信数据库发展大会"在京召开。会上公布了上半年"可信数据库"评估测试结果,百度智能云向量数据库VectorDB成为国内首批完成测试的向量数据库产品。该测试覆盖稠密向量检索、多向量检索、标量向量融合检索三种场景,评估指标包括索引构建时间、QPS、延迟、资源占用等多个维度。百度智能云总架构师朱洁指出,超过50%的AI项目时间消耗在数据治理环节,提出构建"智能数据基座"实现数据统一管理,形成"Data+AI+App"闭环。百度智能云通过湖仓一体架构提升AI训练数据效率,智能调度CPU/GPU算力优化资源分配,预计到2028年多数生成式AI应用将直接基于企业数据平台构建。

  • 准确率92%!苹果新模型可通过行为模式预测怀孕

    据媒体报道,苹果公司联合美国心脏协会和哈佛医学院布莱根妇女医院,在健康预测领域取得重大突破,推出基于行为数据的可穿戴模型WBM(Wearable Behavior Model)。 这项研究标志着健康监测从传统生物指标(如心率、血氧)向行为数据分析的拓展,为疾病预测提供了全新视角。 研究团队利用超过25亿小时的可穿戴设备数据训练WBM模型,使其能够从步数、活动能力等高层次行为

  • 专为企业打造的智能体中台来了!迈富时AI-Agentforce 2.0让Agent正式走向工作岗位

    Gartner预测到2028年,15%的日常工作决策将由自主智能代理完成。迈富时最新发布的AI-Agentforce2.0作为企业级智能体中台,采用"技术赋能+场景落地"双轴驱动模式,重新定义企业智能化转型路径。该平台通过"模型-应用-开发平台"三位一体架构,提供从底层能力到上层应用的完整闭环,包含五大技术模块:模型管理、知识引擎、工具生态、流程编排和企业级基座。相比传统开发方式,该平台将Agent开发周期从3-6个月缩短至2分钟-2周,并已在金融、零售、供应链等行业实现规模化落地,典型应用包括智能导购、财务审批等场景。

  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

今日大家都在搜的词: