首页 > 业界 > 关键词  > GPT-4最新资讯  > 正文

对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-4

2023-10-08 14:18 · 稿源: 量子位公众号

对标GPT-4代码解释器,港中大最新研究放了个“大招”:他们开发了一个叫做MathCoder的大模型,数学能力直接在竞赛级“题库”Math上超过GPT-4。做到这一点靠的就是无缝集成代码的能力——在遇到数学问题时,它不仅能用自然语言推理,还能自动编写和执行代码来建模、推导公式与方程。

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • Opera发布“无所不能”的Neon AI代理浏览器,离线也能写代码

    它可以代表用户执行各种任务,包括购物、填写表格、编写代码、进行研究等,即使在用户离线时也能运作……

  • 腾讯元宝上线AI编程模式:双栏界面实现边提需求边写代码

    今日,腾讯元宝发布更新,上线AI编程模式。 用户在电脑版选择DeepSeek模型并关闭深度思考后,输入@AI编程”后,即可进入AI编程模式。

  • o3模型的“叛变”:拒绝人类“中断”命令、自行篡改内部代码

    o3 出现了“叛变”的情况:其他模型都中止了解题任务,唯独 o3 模型继续进行,甚至还被发现篡改了内部代码 —— 将“接到中断命令时应停止操作”的程序逻辑改成了“跳过中断命令”……

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • 四川名人居:低代码打造出库 APP,助力业务高效运转

    四川名人居门窗有限公司采用活字格低代码平台开发出库APP系统,解决了传统U8C系统功能固化、操作复杂等问题。该系统通过可视化界面实现物料出库全流程管理,显著提升工作效率(每日提升126人次),确保数据准确性。低代码技术降低了开发门槛,缩短项目周期,使非技术人员也能参与开发,同时增强系统灵活性和可扩展性,满足企业数字化转型需求。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 西安电视台专访葡萄城:低代码+AI激活科创动能

    西安葡萄城软件公司总经理倪爱军接受专访,分享了公司在低代码与AI融合领域的前沿探索。作为扎根西安高新区的国家级高新技术企业,葡萄城凭借40余年技术积淀,持续以创新驱动数字化转型。公司自主研发的低代码开发平台引入AI能力,为制造业等场景提供智能解决方案,如通过AI分析生产数据实现精准库存预测。近五年研发投入占比达30%,已服务超3000家合作伙伴。面对国产化趋势,公司积极布局技术创新,推动关键技术自主可控。葡萄城将持续以技术为锚,为西安建设科创高地注入动能,助力中国式现代化实践。

  • 低代码赋能企业信息系统国产化升级

    云南建投钢结构股份有限公司作为云南省建设投资控股集团的专业子公司,在信息化建设中面临安全管理和数据孤岛等挑战。公司采用活字格低代码开发平台构建了生产安全系统,实现班前交底、有限空间作业等核心功能,并与钉钉深度集成,支持移动办公。该系统显著提升了开发效率,打通了与现有MES、ERP等系统的数据壁垒,同时满足国产化和信创要求。相比传统开发方式,活字格降低了技术门槛和成本投入,帮助公司快速实现数字化应用落地,获得管理层高度认可。该平台还助力企业加速信创及国产化进程,为持续发展奠定基础。

  • 超越OpenAI?Claude4大模型能连续工作7小时,创SWE-Bench得分纪录

    过去的 AI 模型往往只能维持几分钟的“注意力”,而 Opus 4 的表现意味着,AI 终于具备了完整工作日级别的协作能力……

  • OpenAI发布云端AI编程智能体Codex:代码准确率高达90%

    OpenAI于5月19日正式推出基于Codex-1模型的云端AI编程智能体Codex。该工具具备强大的代码生成与理解能力,支持Python、JavaScript、C等主流语言,覆盖前后端开发、算法实现等多个领域。测试显示其处理常规编程任务的速度远超人工,代码准确率达90%以上,能显著提升开发效率。Codex深度集成GitHub,支持智能代码补全和结构化代码自动生成,使开发者平均编码时间缩短30%。目前该服务已面向ChatGPT+Pro等高级用户开放,未来有望成为软件开发领域的标配工具,推动AI辅助编程进入新阶段。