首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

全球首测!OpenAI开源SWELancer,大模型冲击100万年薪

2025-02-19 08:45 · 稿源: ​AIGC开放社区公众号

今天凌晨2点,OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。目前,测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified,但这两个有一个很大的局限性,主要针对孤立任务,很难反映现实中软件工程师的复杂情况。例如,开发人员需处理全技术栈的工作,要

......

本文由站长之家合作伙伴自媒体作者“​AIGC开放社区公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • OpenAI:我们的年营收已经达到了 100 亿美元!

    OpenAI 表示,公司年度经常性营收近期已达到 100 亿美元,相比去年约 55 亿美元有显著增长。

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • 豆包大模型1.6发布:全球第一梯队!可生成1080p高品质视频

    字节跳动旗下豆包大模型正式升级为1.6版,在推理、数学、指令遵循、Agent等方面的能力均有较大提升,同时豆包视频生成模型Seedance 1.0 pro、豆包语音播客模型也正式发布。 豆包大模型1.6包括三部分,分别是豆包1.6、豆包1.6-thinking、豆包1.6-flash。 其中,豆包1.6支持on/off/auto三种思考模式,豆包1.6-thinking强化了思考能力,支持多模态,在多个权威测评集上达到了全球第一梯队�

  • 当全球用户为100吋电视投票,背后究竟是在选择什么?

    中国品牌正引领全球百吋电视市场变革。海信电视以58%的全球出货量份额领跑,其116吋RGB-Mini LED电视突破行业技术瓶颈,实现超高亮度与纯色彩兼得。通过ULED AI画质芯片和黑曜屏技术,解决了大屏电视近看模糊、久看累眼等痛点。数据显示2025年Q1全球百吋以上面板出货量同比增长63.8%,印证消费者对大屏需求激增。中国显示技术正改写行业规则,从参数竞赛转向用户体验深耕,让百吋电视从富豪专属走向大众家庭。

  • AI日报:夸克发布首个高考志愿大模型;Trae月活跃用户破100万;Manus推出免费无限聊天模式

    【AI日报】今日AI领域热点速览: 1. 夸克APP推出高考志愿大模型,免费提供个性化填报指导 2. Manus AI开放免费无限聊天模式,挑战行业巨头 3. Trae开发者平台月活破百万,累计交付60亿行代码 4. 迪士尼环球起诉Midjourney侵犯影视版权 5. 维基百科暂停AI生成摘要实验 6. 360发布"纳米AI超级搜索智能体",内置80多款大模型 7. PartCrafter项目实现单张图片生成高精度3D模型 8. Meta推出AI视频编辑工具,支持50多种预设效果 9. 阿里工程师放弃春节假期全力追赶DeepSeek技术 10. 火山引擎发布PromptPilot智能提示优化平台 11. OpenAI洽谈400亿美元融资,拓展AI生态系统 12. 新一代o3-pro推理模型发布并调整API定价策略

  • 世俱杯掀起100吋风暴!海信电视世界第一标语吸睛全球

    2025世俱杯在美国迈阿密硬石体育场开幕,海信电视以"海信100吋,世界第一"的巨幅标语亮相。数据显示,2025年一季度海信100吋电视全球出货量占比56.71%,稳居世界第一。海信通过自主研发的RGB-Mini LED技术、LPU数字激光引擎等创新技术,实现了画质突破,其E8Q Pro等产品具备AI画质优化、超低反射率等优势。从2016年欧洲杯首次亮相国际顶级赛事至今,海信完成了从"中国第一"到"世界第一"的跨越,见证了中国制造业从规模优势到技术引领的质变。

  • 月之暗面放王炸!开源Kimi新模型:超新版DeepSeek R1全球第一

    月之暗面推出了针对软件工程任务的全新开源代码大模型Kimi-Dev-72B。 该模型在SWE-bench Verified编程基准测试中取得了全球最高开源模型水平,以仅72B的参数量,超越了刚发布不就、参数量达671B的新版DeepSeek-R1。

  • 九四智能亮相大阪,AI大模型驱动全球企业实现智能化转型

    2025年5月28-29日,九四智能(94AI)将携自主研发的"大模型联络中心"解决方案亮相大阪"2025呼叫中心CRM演示和会议"。该方案通过AI Agent技术实现从用户触达、需求挖掘到服务闭环的全流程自动化,助力企业重构客户服务与运营效率。作为智能语音领域领军企业,九四智能已在金融、电商、保险等行业积累创新实践,其解决方案支持多语种与文化适配,满足GDPR等全球合规要求。会议重点探讨了数字化转型背景下AI与CRM系统的深度融合,展示了AI在跨境场景中的语言、文化及合规优势。未来,九四智能将持续推动全球企业智能化转型。