11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
【新智元导读】o1模型发布1周,lmsys的6k投票就将o1-preview送上了排行榜榜首。为了满足大家对模型「IOI金牌水平」的好奇心,OpenAI放出了o1测评时提交的所有代码。这位网友还表示,o1基本沿用了GPT-4的架构;那你想,改换架构后的GPT-5能达到什么高度。
【新智元导读】AI掌握自我设计的权力,将会怎样?最近,来自UBC等机构研究人员提出了「智能体自动化设计」系统,让元智能体使用搜索算法,自动构建强大的同类。AI训AI已经老生常谈了,那么,AI能够设计出更强的AI吗?这不,来自UBC等机构的研究人员提出了一种全新系统——智能体自动化设计。向量学院成立于2017年,是一所非盈利研究性机构,也是加拿大政府鼎力支持的AI研究中心,人工智能教父GeoffreyHinton当年成为了这家机构的首席科学顾问。
阿里巴巴开源了最新数学模型Qwen2-Math,一共有基础和指令微调两种版本,包括1.5B、7B和72B三种参数。根据阿里在主流数学基准测试显示,Qwen2-Math-72B指令微调版本的性能超过了GPT-4o、Cloude-3.5-Sonnet、Gemini-1.5Pro等知名闭源模型,就连Meta最新开源的超强模型Llama-3.1-405B也照样拿下。Qwen2-Math模型仅支持英文,但阿里表示会很快推出中英双语版本,帮助更多的用户开发生成式AI应用。
把AlphaGo的核心算法用在大模型上,“高考”成绩直接提升了20多分。在MATH数据集上,甚至让7B模型得分超过了GPT-4。通讯作者KaiFan本硕毕业于北京大学,2017年从杜克大学博士毕业,2018年加入阿里巴巴达摩院。
元象宣布开源高性能大模型XVERSE-65B-2底座版,专项提升其代码和数学能力,并保持了上一代强大的生成创作、角色扮演与工具使用等能力,为生态献上了一个“文理兼修、大有可为”的大模型。XVERSE-65B-2在上一代基础上通过综合优化器状态、学习率调节策略和采样比进行了ContinualPre-Training,训练token总量达3.2万亿;模型支持中、英、俄、法等40多种语言,上下文窗口为16K。元象共开源70亿、130亿、650亿参数的3款大模型,其中XVERSE-65B为国内最早开源、最大参数的免费商用模型。
用AI生成的指令微调羊驼大模型,数学能力超ChatGPT——微软最新开源大模型WizardMath来了。如下图所示,经过GSM8k数据集测试,WizardMath数学能力直接击败了ChatGPT、ClaudeInstant1、PaLM2-540B等一众大模型——并且是在参数只有700亿,远不及后三者的情况之下。另还有一位作者JiazhanFeng,是北大学生,这篇合著论文是TA在微软实习时产出的。
【新智元导读】ChatGPT为人诟病的「数学智障」问题,有望彻底攻克!OpenAI最新研究发现,利用「过程监督」可以大幅提升GPT模型的数学能力,干掉它们的幻觉。ChatGPT自发布以来,数学能力饱受诟病。每个地方都可以确认,chatgpt的答案是错误的。
科大讯飞表示,根据系统、科学的评测体系结果,讯飞星火认知大模型数学能力方面结果优于ChatGPT,针对大模型普遍存在的问题,星火大模型有明确的升级迭代里程碑计划,6月9日,星火大模型的数学能力还会再上一个新的台阶。科大讯飞还表示,为更好地助力反诈工作,科大讯飞成立“反诈AI研究所”,在助力公安机关打击防范电信网络诈骗犯罪工作中,依托智能语音等人工智能技术应用,构建“打防宣”三位一体的反诈新格局。6月9日,讯飞星火认知大模型将突破开放式问答,并升级多轮对话能力和数学能力、8月15日将升级代码能力,使得开发者和合作伙伴可以更加高效方便地使用、10月24日将通过科学、系统的评测方法,在通用认知大模型能力上能够实现对标ChatGPT,并在中文上超越,在英文上达到相当水平。
今日举办的讯飞星火认知大模型成果发布会上,科大讯飞宣布推出讯飞星火认知大模型”,并在现场进行了实机演示。星火认知大模型具备以下能力:多风格多任务长文本生成、多层次跨语种语言理解,泛领域开放式知识问答,情景式思维链逻辑推理,多题型可解析数学能力,多功能多语言代码能力。此外还具备多层次跨语种的理解能力,在多语言理解和纠错能力上已达业界领先水平。
来自瑞典卡罗琳斯卡研究所的一支研究团队,刚刚在《自然·人类行为》期刊上发表了一篇有趣的文章,解释了对儿童空间认知能力的训练,对其数学分析能力也有极大的帮助。虽然文中没有明确提及乐高,但当你下回看到孩子身边散落了一地积木的时候,还请记得与规整的结构相比,这种情况可能有益。据悉,研究人员对 17600 多名 6~7 岁的儿童开展了为期 7 周的数学训练,并且随机分配了所谓的空间认知训练。其中涵盖了需要更强能力的空间?