苹果AIM自回归视觉模型验证性能与模型规模有关

2024-01-18 17:01 · 稿源：站长之家

要点:
1. 随着容量或预训练数据量的增加，模型性能不断提升。
2. 论文证实自回归训练对于图像模型学习表征能力具有扩展性。
3. 自回归目标足以满足视觉特征的训练要求，且没有饱和的迹象。

站长之家（ChinaZ.com）1月18日消息:苹果公司的研究者通过自回归图像模型（AIM）验证了视觉模型“参数越多性能越强”的规律，进一步证明随着容量或预训练数据量的增加，模型能不断提升性能。AIM能有效利用大量未经整理的图像数据，训练方法和稳定性与最近的大型语言模型(LLM)类似。这一观察结果与之前关于扩展大型语言模型的研究结果是一致的。

虽然本文实验所使用的模型规模有限，还需进一步探索是否能在更大参数量级的模型上验证此规律。研究者使用的预训练目标遵循应用于图像 patch 序列的标准自回归模型，通过一系列实验和研究，验证了模型容量可以轻松扩展到数十亿个参数，同时对下游任务有很好的性能。

项目地址：https://top.aibase.com/tool/aim

此外，研究者对自回归目标训练 ViT 模型的多方面进行了探讨，并且重新审视了之前的工作。研究者的实验报告显示，在整个训练过程中，优化目标直接带来更好的下游性能，而随着模型容量的增加，损失值和下游任务的准确性都有所提高。这一观察结果与在 LLMs 中观察到的趋势一致，反映了优化目标会直接带来更好的下游性能。

在 AIM 的设计参数中，除了扩展宽度，研究者还特别采用了一种简单设计，使用多层感知机块，独立地对每个 patch 进行处理。研究者同时强调，研究的模型规模有限，对更大参数量级的模型上验证此规律还有待进一步探索。

论文的实验结果证明了视觉模型同样遵循「参数越多性能越强」的规律，自回归训练对图像模型具有很好的扩展性，并能够满足视觉特征的训练要求。对未来图像模型性能提升和优化提供了新的研究方向和思路。

（举报）

相关推荐

关键词：

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking；阿里开源Wan-Animate模型革新AI视频生成；字节跳动发布豆包翻译模型，支持28种语言互译；华为与浙大联合推出安全大模型DeepSeek-R1-Safe；阿里云即将发布跨模态模型Qwen3-Omni；xAI推出计算成本降低98%的Grok4Fast模型；YouTube发布多项AI创作辅助功能；IBM推出轻量级文档处理模型Granite-Docling-258M；中科院发布类脑大模型SpikingBrain实现百倍速度突破；OpenAI将推出仅限Pro用户的计算密集型新功能。

AI日报美团大模型 LongCat-Flash-Thinking
“全链覆盖”“全向集成”|移动云开启大模型普惠应用新篇章

国际数据公司报告显示，2024年中国MaaS市场规模达7.1亿元，同比增长215.7%，预计2024-2029年复合增长率将达66.1%。随着AI大模型落地，企业对全生命周期工具链、开发平台及通用模型需求激增。移动云通过构建四层云智算架构，提供一站式模型服务，推动AI普惠化。平台已服务30余家央企，覆盖6大行业，未来将持续提升算力智能化水平，助力各行业轻量化拥抱AI时代。

AI大模型 MaaS市场智算服务
没想到，音频大模型开源最彻底的，居然是小红书

不难发现，近几个月，开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说，开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示，国内厂商在七八月接连开源33款、31款各类型大模型。这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域，而音频生成占比很小。

开源 AI社区音频生成
小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务

小米发布首款开源端到端语音大模型Xiaomi-MiMo-Audio，拥有12亿参数，在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力，通过创新预训练架构和超一亿小时训练数据，成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构，支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本，并在Github开源Tokenizer模型，为研究者和开发者提供完整工具链。

AI语音开源模型少样本学习
小度发布多模态智能摄像机，AI大模型重塑家庭看护体验

小度科技推出首款多模态智能摄像机C800，搭载800万像素4K超清摄像头，支持AI大模型技术。该产品不仅能实现高清监控，还具备智能行为识别、语音交互等功能，可自定义看护提醒。结合视觉与语音交互，支持复杂语义查询和家庭设备联动，扩展智能家居应用场景。目前产品已全网发售，年底还将推出三摄版本，持续探索AI硬件创新。

AI大模型智能硬件小度科技
直击企业AI安全痛点，百度智能云发布《千帆大模型平台安全白皮书》为大模型落地护航

百度智能云千帆大模型平台4.0发布《千帆大模型平台安全白皮书》，系统阐述企业级AI安全框架。白皮书聚焦平台安全、模型安全、数据安全、内容合规等六大维度，提出覆盖全生命周期的防护方案，包括混合云部署、数据加密传输、模型防窃取及内容过滤机制，助力企业安全使用大模型技术，推动AI在合规可信环境下赋能业务创新。

大模型平台企业级安全数据安全
荐AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上线AI求真功能

AI日报今日聚焦多项技术突破：可灵AI推出图片转视频功能，腾讯混元SRPO技术提升图像真实感，IBM开源文档处理模型Granite-Docling-258M。Meta发布带屏AI眼镜Ray-Ban，DeepSeek论文登《Nature》封面。OpenAI新增GPT-5思考时长调节功能，抖音上线“AI求真”辟谣工具，通用DeepResearch开源模型性能超越国际知名模型。

AI日报数字人视频生成
易鑫亮相2025数字价值年会，自研AI大模型引领汽车金融智能化变革

易鑫入选钛媒体“2025创新场景年度AI应用TOP榜”，是汽车金融科技领域唯一登榜企业。公司坚持自研大模型路线，依托11年行业数据积累，打造自主可控的AI风控与业务决策系统。其“智鑫多维”大模型成为行业首家获生成式AI备案企业，实现全场景规模化应用。业务覆盖4.2万家经销商及上百家金融机构，科技赋能服务内蒙古牧民、新加坡企业员工等群体。未来将持续深化自研大模型+全场景应用，强化普惠金融服务与国际技术输出。

汽车金融科技 AI风控自研大模型
荐AI日报：阿里云开源通义DeepResearch；夸克推医师考试大模型

本期AI日报聚焦多项前沿动态：阿里云开源轻量级AI代理DeepResearch，性能媲美OpenAI；夸克推出国内首个全阶段医师考试大模型测试集；微软Copilot将上线类ChatGPT记忆管理功能；迪士尼等巨头起诉MiniMax侵犯版权；OpenAI提升ChatGPT搜索准确性；Notion推出个性化AI助手；谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5；Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

AI 开源轻量级
破解 AI “安全与性能” 难题！DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

9月18日，华为全联接大会2025在上海开幕。会上，华为与浙江大学联合发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。该模型在安全防护能力上表现突出，对有害言论、敏感内容等14个维度的防御成功率近100%，同时通用能力测试性能损耗控制在1%以内。双方表示将继续深化合作，推动AI安全技术与产业生态协同发展，为我国人工智能高质量发展提供支撑。

华为全联接大会 DeepSeek-R1-Safe 昇腾千卡算力平台

今日大家都在搜的词：

热文

3 天
7天

苹果AIM自回归视觉模型验证性能与模型规模有关

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

“全链覆盖”“全向集成”|移动云开启大模型普惠应用新篇章

没想到，音频大模型开源最彻底的，居然是小红书

小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务

小度发布多模态智能摄像机，AI大模型重塑家庭看护体验

直击企业AI安全痛点，百度智能云发布《千帆大模型平台安全白皮书》为大模型落地护航

荐AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上线AI求真功能

易鑫亮相2025数字价值年会，自研AI大模型引领汽车金融智能化变革

荐AI日报：阿里云开源通义DeepResearch；夸克推医师考试大模型

破解 AI “安全与性能” 难题！DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

今日大家都在搜的词：

热文

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

雷军演讲主题《改变》官宣：聊玄戒芯片和小米汽车背后的故事

小米平板8系列搭载11.2英寸3.2K旗舰屏

iPhone17遭首批用户吐槽客服回应：建议新机带壳

realme真我GT8系列官宣10月发布

小米汽车：苹果授权Apple Music安卓版将陆续推送

鸿蒙智行尚界H5小订破15万台：明晚上市

AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-A

小米召回116887辆SU7电动汽车：将OTA升级消除安全隐患

雷军回应小米召回11.7万辆SU7：将为用户带来更多期待功能

iPhone17 Pro Max续航实测夺冠 iPhone Air表现不俗

小米发布REDMI 15R 5G手机：售价1099元起搭载6000mAh电池

鸿蒙智行秋季发布会定档9月23日：尚界H5、新问界M7来了

苹果 iPhone 17/Pro 系列今日发售多维度升级

京东：iPhone 17开卖4小时全国超3万人签收

苹果承诺修复iPhone17拍照黑色方块、白色曲线等问题

站长商机