11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
今天凌晨2点,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。通过使用更多的计算资源,模型可以尝试更多的搜索路径,从提高找到正确答案的概率。
今天凌晨1点,OpenAI开源了一个全新的AIAgent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。目前智能体的能力还无法超越人类。
今天凌晨2点,OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified,但这两个有一个很大的局限性,主要针对孤立任务,很难反映现实中软件工程师的复杂情况。将它与现实世界的任务和经济价值联系起来真是天才之举,非常有趣。
OpenAI开源了最新基准测试集SimpleQA,可以帮助开发者轻松检测、校准大模型的真实性能力。很多大模型会出现一本正经胡说八道的问题,例如,你提问NBA历史上得分最多的是谁,它回答是迈克尔乔丹,实际上是勒布朗詹姆斯。通过测量模型的校准情况,发现模型虽然有一定的信心概念,但普遍存在高估自己信心的问题,模型的信心水平与实际回答的准确性之间存在差距。
6月7日凌晨,OpenAI在官网开源了GPT-4的稀疏自动编码器。虽然现在大模型的功能越来越强,能生成文本、图片、视频、音频等内容,但是你无法控制神经网络生成的内容,例如,你问ChatGPT多个相同的问题,可能每一次回答的内容都不相同。如果想通过SAE完整捕捉大模型的行为,大概需要10亿或数万亿个特征才可以。
12月15日,OpenAI在官网公布了最新研究论文和开源项目——如何用小模型监督大模型,实现更好的新型对齐方法。大模型的主流对齐方法是RLHF。研究人员在NLP等测试任务中进行了实验,结果显示,使用GPT-2作为监督来微调GPT-4模型,并在上述增强功能的帮助下,性能差距仅有20%左右,达到了GPT-3和GPT-3.5之间的能力。
在11月7日OpenAI的首届开发者大会上,除了推出一系列重磅产品之外开源了两款产品,全新解码器ConsistencyDecoder和最新语音识别模型Whisperv3。ConsistencyDecoder可以替代StableDiffusionVAE解码器。该模型支持进行零样本图像编辑,可实现图像去噪、插值、上色、超分辨率生成、笔触生成等多种任务无需专门训练。