首页 > 业界 > 关键词  > Gemini最新资讯  > 正文

大模型都喜欢拍马屁,Gemini最能拍!斯坦福:这不安全、不可靠

2025-02-16 09:29 · 稿源: 机器之心公众号

问题挺严重,大模型说的话可不能全信。最近 DeepSeek 非常热门,我们也能在网上看到大量或严肃有用或幽默搞怪使用案例。其中一个很有趣的现象是不少用户发现 DeepSeek 会见风使舵。更直白一点说,DeepSeek 会拍用户的马屁,有时候甚至会无脑认同用户的错误言论。是的,「拍马屁」、

......

本文由站长之家合作伙伴自媒体作者“机器之心公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

    本次AI高考数学测试评估了7个大模型的表现,包括Doubao、DeepSeek、Qwen3等。测试包含14道客观题和5道解答题,总分150分。结果显示:1)客观题各模型差距不大,最大分差仅3分;2)解答题成为主要失分区,仅Gemini2.5Pro获得满分;3)图像识别题(第6题)难倒所有多模态模型,暴露AI图文理解短板。最终Gemini2.5Pro以145分居首,Doubao和DeepSeek R1以144分并列第二。测试表明大模型在数学推理能力上有进步,但在复杂论证和多步骤计算方面仍需提升。

  • 性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent

    月之暗面(Moonshot AI)正式推出其首款Agent产品Kimi-Researcher(深度研究),并已启动小范围灰度测试。 该产品基于端到端自主强化学习(end-to-end agentic RL)技术打造,在HLE测试中表现优异,性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research,并与Gemini-Pro的Deep Research Agent持平。 Kimi-Researcher 是一款高度自主的智能研究助手,能够独立规划任务流程并交付完整结果。与其他Agent不�

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • MiniMax深夜开源首个推理模型M1,这次是真的卷到DeepSeek了。

    ​不知道还有多少人记得,AI行业的六小虎。 行业内都在说,他们已经寂静好久了。 上一次相关的项目发布,还是前一段时间我写的MiniMax声音模型的更新,Speech-02。 而昨晚凌晨将近12点的时候,又是MiniMax,居然在X上,预告了他们一整周的发布计划。

  • REDMI K Pad搭载顶级LCD屏!7大优势全面领先iPad mini

    REDMI K Pad将于本月发布,这是REDMI首款旗舰小平板,号称全面超越iPad mini。 据了解,REDMI K Pad采用8.8英寸3K LCD屏幕,按照REDMI品牌总经理王腾的说法,这块屏幕拥有行业顶级的规格。 王腾还晒出K Pad与iPad mini的屏幕规格对比图,前者无论是ppi、刷新率、全局亮度,还是触控采样率、护眼、湿手触控等,以及屏幕边框,都全面领先iPad mini。

  • 卢伟冰:REDMI K Pad对标iPad mini

    REDMI正式官宣其首款旗舰小平板——REDMI K Pad,该产品将于近期发布。与此同时,小米集团合伙人、总裁,国际部总裁,Redmi品牌总经理卢伟冰发文透露,今年堪称小米平板业务的爆发之年,小米平板销量首次跻身全球前三,产品阵容完成换新,全面对标苹果iPad系列产品。 卢伟冰强调,5月发布的小米平板7Ultra直接对标苹果最高端的iPad Pro,而接下来即将发布的新品中,有两款�

  • 揭秘世俱杯定制“看球神器”,RGB-Mini LED如何让老球迷欢乐加倍

    海信推出专为世界杯打造的RGB-Mini LED电视UX系列,带来三大观赛体验升级:1)采用RGB三维控光技术,实现97% BT.2020色域覆盖,配合330Hz高刷,完美呈现HDR10+Live标准赛事画面;2)内置AI体育智能体,提供赛前预测、赛中战术分析和赛后精彩回放等18种智能交互;3)配备6.2.2声道帝瓦雷声学系统,结合AI降噪技术,还原现场氛围。作为国际足联VAR显示合作伙伴,该产品以顶尖技术实力带来身临其境的观赛体验。

  • 小米揭秘YU7行业首创天际屏全景显示:三块Mini LED投影

    小米YU7已经发布,外观和内饰设计上备受好评,尤其是仪表盘行业首发了小米天际屏全景显示(Xiaomi HyperVision),非常独特。 小米汽车官方在最新一期问答中进行了揭秘,称其相较于传统HUD,是一套更符合直觉的视觉交互系统。 小米称,它不是一块简单的屏幕,而是一个集成投影显示领域先进技术和先进交互体验的高端投影。

  • REDMI电竞小平板即将发布 王腾:对标iPad mini 配置拉满

    日前,REDMI电竞小平板正式入网,预计本月就会与消费者见面。今日,REDMI品牌总经理王腾对外透露,这是REDMI有史以来推出的首款旗舰小平板,其手感极佳,性能强劲,配置更是直接拉满,将全面对标iPad mini。 结合此前爆料信息来看,这款REDMI旗舰小平板亮点颇多。它搭载了一块8.8英寸定制的LCD屏,具备高分辨率与高刷新率,屏幕采用无孔圆角设计,视觉体验值得期待。

  • AI日报:MiniMax发布视频智能体Hailuo Agent;昆仑万维开源 Skywork-SWE-32B;B站接入Qwen 3等模型

    本期AI日报聚焦多项AI领域创新:1)MiniMax推出视频Agent工具,支持文本生成高清视频及人脸驱动;2)昆仑万维开源Skywork-SWE-32B模型,提升软件工程任务表现;3)B站接入通义千问模型,推出数据分析智能体InsightAgent;4)ChatGPT深度整合Gmail与日历功能;5)腾讯云发布全链路AI开发平台"AI Builder";6)HeyGen推出UGC广告数字人功能;7)研究显示过度依赖AI或削弱批判性思维。此外还涵盖AI音乐生成、内容检测工具停运等动态,展现AI技术快速发展的多元应用与潜在影响。