首页 > 业界 > 关键词  > Instagram最新资讯  > 正文

大模型测试题爆火,GPT-4和Claude3都跪了,LeCun转发:新Benchmark

2024-06-24 17:57 · 稿源: 量子位公众号

一项新的“大模型Benchmark”在推特上爆火,LeCun也点赞转发了!而且无论是GPT-4还是Claude3,面对它都如同被夺了魂,无法给出正确答案。难倒一众大模型的,是逻辑学当中经典的“动物过河”问题,有网友发现,大模型对此类问题表现得很不擅长。甚至有人观察到,几个不同的模型都给出

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 更新功能、内测新App,抖音快手再战社交

    ​抖音和快手又一次向社交领域发起进攻。 近日,抖音、快手在站内密集更新了“日常”“说说”等一系列社交新功能;此外,抖音还被曝正在内测全新的社交App。 当流量增长触及天花板,内容的稀缺性逐渐变弱,社交似乎成为了短视频巨头的“新叙事”。 它们为何始终对“社交”念念不忘?这究竟是构筑护城河的必然选择,还是一场注定艰难的豪赌?

  • GTAOL/GTA增强版万圣节活动月到来!持续时间最长、活动最多、奖励最丰富的狂欢!

    GTA万圣节活动月开启,包含三大限时活动:幽浮绑架事件需合作逃脱获专属武器与服装;幽灵曝光任务拍摄新角色杰斯·诺里斯灵魂得奖励;佩里科岛丧尸生存战解锁木乃伊套装。另有UFO观光事件及电棒等限定载具武器。活动持续最长、奖励最丰富,推荐使用加速器优化网络体验。

  • 《暗影之路》携手蒸汽朋克与妖怪传说亮相2025年Steam新品节

    《暗影之路》将于2025年10月13日至20日参与Steam新品节,试玩版已支持简体中文。游戏设定在1868年幕末日本,融合传统魔法与蒸汽科技,玩家将扮演幕府情报头目,组建队伍在回合制战斗中对抗妖怪与机械敌人。试玩版包含“安眠旅馆”和“杉山庄园”两个场景及三场战术战斗。剧情驱动玩法中,玩家选择将影响角色命运与帝国未来,体验传统与现代碰撞的沉浸式冒险。

  • 第一!世纪华通旗下Century Games登顶全球Top50手游商

    知名游戏媒体PocketGamer发布《2025年全球TOP50移动游戏商》榜单,世纪华通旗下Century Games从去年第7位跃居榜首,创下该榜单晋升速度新纪录。其成功源于持续创新与精准市场洞察:既实现《Whiteout Survival》等长线产品稳定运营,又凭借《Kingshot》等新作打造跨品类爆款,形成“双强驱动”格局。公司通过“微创新”策略结合AI技术提升研发效率,构建覆盖SLG、休闲、卡牌三大核心品类的产品矩阵。2025年上半年母公司世纪华通营收172亿元,同比增长85.5%,印证了其全球化布局与长效发展潜力。

  • 半年营收近20亿,2025年了,还有社交公司要上市?

    「米连科技」,可能会有些陌生,但提到「伊对」,想必读者就很熟悉了。 公司成立于2015年,定位为在线情感社交平台,旗下产品包括面向国内市场的「伊对」(恋爱社交平台)、「贴贴」(语音社交平台),和以海外市场为主的「HiFami」(从应用截图来看,类似「贴贴」海外版)、「Chatta」(视频社交平台)、「Seeta」(视

  • 重新定义开放式耳机通讯体验:开石OpenRock推出全球首款可拆卸磁吸咪杆开放式耳机,于Kickstarter震撼上线

    OpenRock推出全球首款可拆卸磁吸开放式耳机Link20,搭载独家MagShield™ FusionTech磁吸连接技术,解决传统开放式耳机通话质量差的痛点。产品采用人体工学近场音孔设计,配合5麦克风阵列与AI降噪系统,实现高清通话与Hi-Fi级音质。单耳仅重9克,支持IPX7防水与13小时续航,现已在Kickstarter开启首发预售,早鸟价105美元。

  • 小米澎湃OS 3 OTA逻辑改进:优先手动检测、逐步放量

    今年的小米澎湃OS 3进步很大,流畅性、功能性等多方面都大幅超越前代,很多用户都希望第一时间升级。 对此,小米公司应用软件部总监王乐专门发文解释了澎湃OS 3系统改进后的OTA逻辑,让大家更方便体验: 1.在大型软件工程体系下,所有软件产品的新版本发布都会遵循逐步放量的灰度策略 2.灰度策略有多种选择,比如招募一定的内测用户优先推送,或者随机放量慢慢扩�

  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • iOS 26.1 Beta 2发布:闹钟需要滑动停止、苹果智能支持繁体中文

    苹果今天凌晨正式发布了iOS 26.1 Beta 2开发者预览版,加入开发者计划的用户都能升级体验。 这次对用户影响最大的是闹钟功能的改进,之前iOS 26将闹钟的停止按钮加大,导致停止更方便,同时也更容易误触,苹果目前已经进行大改,需要滑动才能停止。 这个设计让用户在迷迷糊糊中点击手机的无法结束闹钟,不会错过起床时间了。 除了闹钟升级之外,Apple Intelligence还在更�

  • 特斯拉V14终于来了!整合Robotaxi技术 马斯克:FSD有了意识

    以下是FSD 14的主要功能更新 1、新增到达选项(Arrival Options):驾驶者可选择目的地停车类型,包括停车场、街边、车道、停车库或路边停靠。 2、系统可识别警车、消防车、救护车等紧急车辆并自动避让或靠边停车。 3、实现对封路与临时绕行的实时处理。 4、增加自定义速度档位”以调整驾驶风格。新增SLOTH”模式,以更低车

今日大家都在搜的词:

热文

  • 3 天
  • 7天