首页 > 业界 > 关键词  > GPT-4最新资讯  > 正文

谷歌让大模型更具“心智”,GPT-4任务准确率大增

2023-10-15 15:02 · 稿源: 量子位公众号

谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。在新的提示策略下,大模型不仅能推测出人类所面临的问题,还学会了用推测的结论调整自己的行为。有了这一成果,GPT-4的“心智”水平已经提高到了人类的71%。具体来说,研究人员发现,现在的大模型,已经具备了

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 中文大模型忠实性幻觉评测:豆包大模型幻觉4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • 孩子健康不能赌!血糖仪准确率排名领先的三诺是真靠谱

    一位母亲分享孩子确诊1型糖尿病后的经历:起初购买无创血糖仪发现不准,差点耽误病情。后来选用三诺优佳血糖仪,其精准度通过CE和ISO认证,临床测试达标率99.2%。专利采血笔9档可调,孩子不再抗拒检测。三色指示灯直观显示血糖状态,便于及时调整饮食。与医院静脉血检测对比误差仅0.2mmol/L,医生认可其准确性。现在孩子能主动配合检测,血糖管理更科学。618期间该产品有优惠活动,建议糖友家庭趁活动入手这款可靠的健康管理工具。

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • ChatGPT重磅升级GPT-4.1:编程专家模型登场

    OpenAI于5月15日正式推出GPT-4.1模型,采用差异化推送策略:付费用户可体验完整版,普通用户使用轻量级GPT-4.1 mini。新版模型在编程任务表现突出,能精准遵循指令,避免冗长输出。测试显示其响应速度提升30%,输出稳定性提高40%,部分性能超越GPT-4o。同时OpenAI宣布将斥资30亿美元收购编程工具Windsurf,强化开发者生态,与Google同日发布的Gemini-GitHub形成直接竞争。两大巨头的动作标志着AI编程助手进入生态竞争新阶段。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

    超越OpenAI! 国产大模型突袭,AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一!

  • OpenAI发布云端AI编程智能体Codex:代码准确率高达90%

    OpenAI于5月19日正式推出基于Codex-1模型的云端AI编程智能体Codex。该工具具备强大的代码生成与理解能力,支持Python、JavaScript、C等主流语言,覆盖前后端开发、算法实现等多个领域。测试显示其处理常规编程任务的速度远超人工,代码准确率达90%以上,能显著提升开发效率。Codex深度集成GitHub,支持智能代码补全和结构化代码自动生成,使开发者平均编码时间缩短30%。目前该服务已面向ChatGPT+Pro等高级用户开放,未来有望成为软件开发领域的标配工具,推动AI辅助编程进入新阶段。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 一场文心大模型的「AI马拉松」

    对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年,模型能力的重要性依然无需多言。 从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。 从后训练的角度来看,强化学习新范式正�

  • 难哭了的高考数学题,4家国产大模型表现如何?

    2025年高考数学考试引发热议,多家AI大模型参与测试。腾讯元宝和豆包表现最优,分别获得145分和140分(满分150分),仅错1-2道题。文心一言和QWen3稍逊,得分在120分左右。测试显示,AI在选择题和基础解答题表现良好,但在涉及图像理解、向量分析等复杂题目时仍存在困难。特别是一道包含向量图的"杀手题"让所有AI失分。专家指出,国产大模型数学能力已有显著提升�