苹果多模态模型大升级！文本密集、多图理解，全能小钢炮

2024-10-14 08:50 · 稿源：新智元公众号

【新智元导读】近日，一向画风精致的「苹果牌AI」，也推出了升级版的多模态大模型，从1B到30B参数，涵盖密集和专家混合模型，密集文本、多图理解，多项能力大提升。多模态大语言模型（MLLM）如今已是大势所趋。过去的一年中，闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
荣耀Magic 8系列上新，火山引擎助力“YOYO助理”多模态升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等年度旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，结合火山引擎与豆包大模型技术，支持联网问答、识图、修图、闲陪伴、口语练习、出行规划等场景，提供图文、语音、视频等多种输入输出形式，实现秒级响应与沉浸式交互体验，成为用户“口袋里的万能管家”。

荣耀Magic8系列 MagicOS10操作系统 YOYO助理
升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

vivo发布全新OriginOS 6系统，升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同，实现精准意图识别与多模态交互，支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合，提供低延迟、高情感语音响应。同时拓展无障碍服务，为视障用户提供实时视觉辅助。未来将持续深化AI生态建设，打造更智能便捷的原生体验。

originOS6 蓝心小V AI原生操作系统
荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，支持图文、语音、视频输入及多样化内容输出，结合火山引擎的豆包大模型技术，提供联网问答、智能识图、创意修图、出行规划等场景服务，实现“有问必答、答则精准”的智慧体验，成为用户贴身的“万能管家”。

荣耀Magic8系列 MagicOS10 YOYO助理
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
苹果推出网页版App Store 浏览器即可使用

苹果公司近日推出网页版App Store，用户无需依赖特定苹果设备，通过任意浏览器访问apps.apple.com即可浏览全平台应用。新版网页设计与原生App Store界面高度相似，功能丰富且交互流畅，取代了原先简单的登录页面。用户可通过左上角下拉菜单快速切换至iPhone、iPad等设备的专属应用页面，实现跨平台浏览。网页版完整移植了原生商店的“今日”标签页内容，包括编辑推荐、热门�

苹果 App Store
如何检查你的网站是否被大模型引用？AI排名查询工具推荐

本文探讨AI搜索时代网站流量获取新逻辑：传统SEO因Google搜索"零点击"现象失效，而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口，并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议：建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代，内容被LLM引用已成为新的流量生命线。
机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM，实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用，通过统一“视频流+文本指令→动作轨迹”范式，融合800万条跨任务导航数据，在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施，为规模化商业落地奠定关键基础。

机器狗导航大模型 TrackVLA

今日大家都在搜的词：

热文

3 天
7天

苹果多模态模型大升级！文本密集、多图理解，全能小钢炮

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

荣耀Magic 8系列上新，火山引擎助力“YOYO助理”多模态升级

升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

苹果推出网页版App Store 浏览器即可使用

如何检查你的网站是否被大模型引用？AI排名查询工具推荐

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

今日大家都在搜的词：

热文

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

俞敏洪发文确认孙东旭离职：保持着良好的沟通

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机