首页 > 业界 > 关键词  > AIM最新资讯  > 正文

苹果AIM自回归视觉模型验证性能与模型规模有关

2024-01-18 17:01 · 稿源:站长之家

要点:

1. 随着容量或预训练数据量的增加,模型性能不断提升。

2. 论文证实自回归训练对于图像模型学习表征能力具有扩展性。

3. 自回归目标足以满足视觉特征的训练要求,且没有饱和的迹象。

站长之家(ChinaZ.com)1月18日 消息:苹果公司的研究者通过自回归图像模型(AIM)验证了视觉模型“参数越多性能越强”的规律,进一步证明随着容量或预训练数据量的增加,模型能不断提升性能。AIM能有效利用大量未经整理的图像数据,训练方法和稳定性与最近的大型语言模型(LLM)类似。这一观察结果与之前关于扩展大型语言模型的研究结果是一致的。

虽然本文实验所使用的模型规模有限,还需进一步探索是否能在更大参数量级的模型上验证此规律。研究者使用的预训练目标遵循应用于图像 patch 序列的标准自回归模型,通过一系列实验和研究,验证了模型容量可以轻松扩展到数十亿个参数,同时对下游任务有很好的性能。

image.png

项目地址:https://top.aibase.com/tool/aim

此外,研究者对自回归目标训练 ViT 模型的多方面进行了探讨,并且重新审视了之前的工作。研究者的实验报告显示,在整个训练过程中,优化目标直接带来更好的下游性能,而随着模型容量的增加,损失值和下游任务的准确性都有所提高。这一观察结果与在 LLMs 中观察到的趋势一致,反映了优化目标会直接带来更好的下游性能。

image.png

在 AIM 的设计参数中,除了扩展宽度,研究者还特别采用了一种简单设计,使用多层感知机块,独立地对每个 patch 进行处理。研究者同时强调,研究的模型规模有限,对更大参数量级的模型上验证此规律还有待进一步探索。

论文的实验结果证明了视觉模型同样遵循「参数越多性能越强」的规律,自回归训练对图像模型具有很好的扩展性,并能够满足视觉特征的训练要求。对未来图像模型性能提升和优化提供了新的研究方向和思路。

举报

  • 相关推荐
  • 有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型

    网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行,在多项数学推理任务中性能超越更大规模的通用模型,高考数学题测试得分达98.5分。其训练成本仅2.6万美元,推理性能是DeepSeek+R1的15倍,服务成本低至每百万token0.15美元,大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�

  • 苹果研究发现:AI 模型在遇到复杂难题时会“崩溃放弃”

    AI 的“推理能力”或许远没有我们想象中的那么强……

  • 苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象

    有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。 苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。 并且,这些评估大都缺乏对思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。 为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、�

  • 预测大模型的工业生存法则,华为博士告诉你什么才是B端最需要的大模型!

    华为开发者大会2025期间,AI专家李良基与华为团队围绕预测大模型展开深度对话。华为提出"数据原子级表征体系"理念,旨在通过统一数据编码解决跨场景迁移难题。预测大模型已在钢铁行业成功应用,温度预测准确率远超传统方案。专家指出,AGI发展的核心在于构建知识迁移能力,未来将聚焦To B场景落地,通过统一架构实现跨领域泛化应用。华为云首创Triplet Transformer

  • 智能体时代,还得看豆包大模型

    火山引擎,又有大动作了。 2025年6月11日,火山引擎Force原动力大会发布豆包大模型1.6、视频生成模型Seedance1.0pro等重磅新模型,以及迭代了一站式AI云原生全栈服务。 对此,字节跳动CEO梁汝波表示:“做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。未来,字节跳动会坚定长期投入,追求智能突破,服务产业应用。通过火山引擎,持续把新模型、新�

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • 荣耀方飞称不做苹果平替:苹果AI相对滞后

    荣耀公司产品线总裁方飞接受媒体采访时被问到,荣耀打通了与苹果生态的互联,是否也要走上一条苹果平替的道路? 方飞表示:一定不做平替,苹果AI现在相对滞后,荣耀的AI比苹果要快,我们希望很多时候走在苹果前面,这个行业本来就是你追我赶,互相学习,做出最好的产品,让消费者获益。

  • 大模型时代:内容产业智变新浪潮

    腾讯研究院院长司晓在第15届中国(深圳)国际文化产业博览交易会上发表演讲,指出大模型技术正推动文化内容生产从"专业主导"转向"全民共创"。大模型已从工具赋能升级为生态重构,显著提升内容生产效率和质量,如腾讯混元模型支持实时图像生成与调整。AI技术加速影视、音乐等内容创作,如上海民族乐团与腾讯音乐合作的AI音乐会《零·壹 | 中国色》。同时,大模型在理解与交互能力上取得突破,如GPT-4o能准确识别物体细节。腾讯通过"探元计划"推动科技与文化融合,如"云游敦煌"等项目。未来,AI将实现"智力即服务",大幅提升创作效率和质量,推动文化内容产业进入"千人千面"新时代。

  • 新型比特币数字货币预测模型:微云全息基于卷积神经网络和堆叠门控递归单元的加密货币预测模型

    文章概述了加密货币市场自2009年比特币问世以来的快速发展,指出区块链技术的成熟推动了更多加密货币涌现,吸引了大量投资者关注。市场总市值不断增长,但高度波动性也增加了投资难度。微云全息公司开发了基于CNN和GRU混合方法的创新预测模型,通过卷积神经网络提取特征,门控循环单元捕捉长期依赖关系,能更准确预测加密货币价格走势。实验表明该模型优于现有方法,可应用于交易策略优化和风险管理,为投资者提供可靠决策支持。

  • VLA模型打响升维战:理想、元戎启行如何重塑“安心感”

    当前辅助驾驶已实现全国覆盖,但用户从"能用"到"爱用"仍有明显鸿沟。核心痛点在于"安心感不足"——系统决策缺乏解释性、盲区预判能力薄弱、人机交互机械化等问题。理想汽车押注的VLA(视觉-语言-动作)模型通过语言模型增强系统推理能力,能更全面理解交通场景。该模型具备三大功能:空间语义理解可预判盲区风险;异形障碍物识别能应对极端路况;文字类引导牌理解可精准执行车道选择。VLA技术有望解决智驾系统"最后一公里"的信任难题,推动行业从功能覆盖转向体验升级。