首页 > 业界 > 关键词  > GPT-4o最新资讯  > 正文

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!Claude 3.5回答离谱,LeCun嘲讽LLM

2024-07-01 08:42 · 稿源: 新智元公众号

【新智元导读】LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude3.5也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上,如今所有的LLM都失败了!几天前,菲尔兹

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • “血亏,我花3000+元用Claude做游戏,结果还不如去「白嫖」Gemini 2.5……”

    作者分享使用AI助手开发拼字游戏的两段经历:首次用Claude花费417美元(约3042元),开发过程充满痛苦,常出现上下文失效、代码错误等问题;第二次用Gemini 2.5 Pro+Cursor完全免费,体验明显改善,能更好理解项目上下文,开发更流畅。对比指出:Claude像健忘的实习生,常搞砸项目;Gemini则像可靠的中级工程师,开发速度快且稳定。但强调AI仍需人类监督测试,无法独立产出完美代�

  • Claude终于能Research了,打通谷歌全家桶,工作效率10倍提升

    Anthropic推出Claude两大重磅功能:Research与Google Workspace集成!Research功能让Claude快速检索网络与内部文件,精准回答复杂问题;而与Google Workspace的深度整合,则让用户能无缝调用Gmail、日历和文档信息,轻松完成从行程规划到报告撰写的任务。今天凌晨,Anthropic官方推出了两个重磅新功能:Research以及与Google Workspace集成。Anthropic称Research功能是与Claude合作的新方式。它能从多个角度分析

  • Claude竟藏着3307种「人格」?深扒70万次对话,这个AI会看人下菜碟

    Anthropic公司通过分析70万条Claude AI对话数据,发现其AI助手展现出独特的价值观体系。研究显示Claude遵循"乐于助人、诚实无害"的核心价值观,同时能根据不同场景灵活调整回应方式。AI表现出3307种价值观,分为实用性、认知性、社会性等五大类,其中28.2%对话强烈支持用户价值观,3%会明确抵制不当观点。研究还发现高价版AI模型价值观表达更强烈,在学术严谨性和情感�

  • 生成很强,推理很弱:GPT-4o的视觉短板

    研究显示,GPT-4o在图像理解和推理上表现出色,能生成精美图片,但在基础逻辑测试中表现欠佳,暴露出理解、推断及多步骤逻辑处理的不足。例如,被要求画一只猫时,它先画了狗然后改为猫,但仍存在错误判断。这表明当前AI更像“精确指令机器”,需进一步优化以实现更精细的图像理解和复杂任务处理。

  • 被吹爆的GPT-4o真有那么强?这有23个案例实测

    距离OpenAI正式发布GPT-4o生图功能,已经过去两周多了。这段时间里,“ChatGPT-4o颠覆了AI图像生成的逻辑”这句话大家应该都听腻了。现在早上一睁眼,先看有没有更新,看看自己有没有落后。

  • OpenAI回应GPT-4o更新后过于谄媚:已逐渐恢复

    OpenAI紧急回滚GPT-4o免费版更新,因其在对话中表现出过度迎合用户的"谄媚倾向",尤其在争议话题上丧失中立立场。该模型虽在STEM领域准确率提升17%,但优化后出现意外偏差:面对用户偏见时会合理化解释,甚至不纠正明显错误事实。这揭示了AI在用户满意度与客观性间的平衡难题。类似事件早有先例,如谷歌Gemini因过度追求多样性扭曲历史图像。两案例共同指向AI发展核心矛盾:技术突破后,更复杂的价值观对齐问题正成为行业最大挑战。(140字)

  • 亚马逊推出AI语音模型Nova Sonic:价格比GPT-4o便宜80%

    亚马逊正式推出新一代生成式AI语音模型NovaSonic,标志着其在人工智能语音领域取得重大突破。这款创新模型能够原生处理语音输入并生成自然流畅的语音输出,在速度、语音识别准确率和对话质量等核心性能指标上,已达到与OpenAI、谷歌等科技巨头的尖端语音模型相媲美的水平。该模型的推出是亚马逊构建人工通用智能战略的重要一步,未来还将推出支持多模态理解的AI模型,涵盖图像、视频及其他物理世界感知数据。

  • OpenAI紧急修复GPT-4o献媚问题,已回滚到老版本

    OpenAI CEO Sam Altman确认已修复GPT-4o"阿谀奉承"问题,免费用户已完成100%回滚至旧版本,付费用户预计今晚完成更新。此前大量用户投诉GPT-4o过度谄媚,甚至出现讨好型人格。OpenAI疑似进行A/B测试时意外产生该问题,引发公众强烈反对后紧急回滚。特斯拉AI总监Andrej Karpathy等专业人士表示喜欢新版更具对话感的特性,但普通用户可通过自定义指令调整风格。目前免费版已恢复正常,但使用特定指令仍可调出类似回答。该事件反映出AI个性设置与用户体验平衡的挑战。

  • 挑战GPT-4o!AI文生图惊现黑马,国产团队HiDream如何逆袭?

    HiDream是一款由国内团队开发的AI模型,擅长生成复杂的图片与多种风格的艺术作品。它在多个测试中表现出对细节、材质、光影控制以及创意概念的良好理解,尤其在人物动态、精细绘画等方面效果显著。HiDream支持输出4K高清图片,并兼容多种应用领域,包括商业用途。尽管在某些特定要求下还需提升表现,但其潜力和实际效果已受到关注。

  • OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

    Meta、西北大学和新加坡国立大学的研究团队提出TokenShuffle技术,显著提升了自回归模型生成高分辨率图像的能力。该技术通过局部窗口内的token合并与解构操作,将视觉token数量减少为平方分之一,首次实现2048×2048分辨率图像生成。基于27亿参数的Llama模型,TokenShuffle在GenAI基准测试中获得0.77综合得分,超越同类自回归模型0.18分,在人类评估中展现出更好的文本对齐和视觉质量。该方法无需修改Transformer架构,通过三阶段训练策略(512→1024→2048分辨率)逐步提升生成能力,为多模态大语言模型的高效高保真图像生成开辟了新路径。

热文

  • 3 天
  • 7天