首页 > AI头条  > 正文

商汤NEO开源:用1/10数据量媲美顶级多模态模型,终结"拼凑式"AI时代

2025-12-03 09:07 · 来源: AIbase基地

商汤科技与南洋理工大学S-Lab联合发布并开源全新多模态模型架构NEO,通过底层架构创新实现视觉与语言的深层统一,在性能、效率和通用性上取得全面突破。

极致数据效率:1/10数据量达顶尖性能

NEO最显著的突破在于其极高的数据效率——仅需3.9亿图像文本示例,相当于业界同等性能模型1/10的数据量,便能开发出顶尖的视觉感知能力。无需依赖海量数据及额外视觉编码器,NEO凭借简洁架构在多项视觉理解任务中追平Qwen2-VL、InternVL3等顶级模块化旗舰模型。

在MMMU、MMB、MMStar、SEED-I、POPE等多项公开权威评测中,NEO均斩获高分,综合性能优于其他原生VLM,真正实现了原生架构"精度无损"。

从底层打破"拼凑式"设计桎梏

当前业内主流多模态模型大多遵循"视觉编码器+投影器+语言模型"的模块化范式。这种基于大语言模型的扩展方式虽然实现了图像输入兼容,但本质上仍以语言为中心,图像与语言的融合仅停留在数据层面。这种"拼凑"式设计不仅学习效率低下,更限制了模型在复杂多模态场景下的处理能力,尤其是涉及图像细节捕捉或复杂空间结构理解的任务。

NEO则通过在注意力机制、位置编码和语义映射三个关键维度的底层创新,让模型天生具备统一处理视觉与语言的能力。

两大核心技术创新

原生图块嵌入(Native Patch Embedding):NEO摒弃了离散的图像tokenizer,通过独创的Patch Embedding Layer(PEL)自底向上构建从像素到词元的连续映射。这种设计能更精细地捕捉图像细节,从根本上突破了主流模型的图像建模瓶颈。

原生多头注意力(Native Multi-Head Attention):针对不同模态特点,NEO在统一框架下实现了文本token的自回归注意力和视觉token的双向注意力并存。这种设计极大提升了模型对空间结构关联的利用率,从而更好地支撑复杂的图文混合理解与推理。

  • 相关推荐
  • 谷歌AI眼镜官宣明年问世:搭载Gemini多模态模型

    谷歌宣布,正与三星、Gentle Monster及Warby Parker等合作伙伴共同研发两种类型的AI智能眼镜,预计新产品将于2026年面市。 谷歌硬件负责人Payne表示,公司已从过往经历中吸取教训。新款眼镜将深度集成其先进的Gemini大模型,在无需双手操作的情况下,用户可实现拍照、导航、接听电话及识别眼前物体等功能,其定位与Meta和雷朋合作推出的智能眼镜相似。 此次发布的产品线将分�

  • 可灵AI O1正式上线:号称全球首个统一多模态视频大模型

    可灵AI正式发布全新O1视频大模型,被誉为全球首个统一多模态视频大模型。该模型基于创新的多模态视觉语言交互架构,用户可在单一输入框内无缝融合文字、图像、视频等多种指令,实现跨模态内容的高效创作。其技术突破解决了传统视频生成工具功能割裂、操作复杂的痛点,并攻克了视频中主体特征漂移的行业难题,支持长达310秒的自由生成时长。目前用户可通过可灵App及官网体验。

  • 全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单

    全球首个大一统多模态视频创作工具“可灵O1”正式上线。它基于全新视频图像模型,以自然语言为语义骨架,融合视频、图片、主体等多模态描述,将生成和编辑任务整合于一个全能引擎中,为用户提供从灵感到成品的闭环创作体验。该模型打破传统单一视频生成任务边界,支持参考生视频、文生视频、首尾帧生视频、视频内容增删、风格重绘等多种任务,用户无需在多个工具间跳转即可一站式完成全流程创作。

  • 为AI Agent时代筑基,火山引擎多模态数据湖方案重塑数据处理范式

    人工智能时代全球数据量激增,预计2028年将达393ZB,其中80%为非结构化数据。火山引擎推出多模态数据湖方案,以Lance存储+Daft计算为核心,解决数据处理痛点:存储层实现高压缩比与灵活Schema,计算层通过延迟计算提升70%效率。该方案在智能驾驶等场景显著优化性能,端到端处理时间缩短70%,资源利用率提升至95%以上。平台还推出"算子广场"降低开发门槛,并推出Data Agent实现自然语言交互的数据分析,推动企业构建以数据消费为导向的治理体系。

  • MacBook Pro首次采用OLED:Mini LED时代将终结

    2012年苹果推出了首款Retina视网膜显示屏MacBook Pro,在720P当道的时代可以说惊艳四座。 2021年,首款配备Mini LED显示屏的MacBook Pro亮相,苹果自信地称之为世界上最好的笔记本屏幕”。 时隔5年,苹果笔记本屏幕再度升级,明年的MacBook Pro系列将首次搭载OLED屏,Mini LED将被淘汰。 虽然Mini LED比传统LCD显示更优,但是Mini LED仍然依赖背光模组,而且没有彻底摆脱LCD屏色域窄的问题。

  • AI日报:可灵AI全量上线O1视频大模型;千问APP接入万相Wan2.5

    本文汇总了AI领域的最新动态:可灵AI发布O1视频大模型,支持多模态输入一键生成视频;千问APP接入万相Wan2.5,提升视频创作能力;PixVerse V5.5实现音画同步,简化视频制作;深度求索推出DeepSeek-V3.2,引入稀疏注意力机制降低成本;Runway发布Gen-4.5模型,增强视觉质量;谷歌优化AI搜索体验,Gemini 3 Pro扩展国际市场;Lovart推出Touch Edit功能,实现零门槛图像编辑;蚂蚁数科Agentar入选中国智能体开发赛道第一梯队,展现技术实力。

  • 博大数据亮相IDC产业年度大典,阐述万卡集群如何定义AI新时代

    第二十届中国IDC产业年度大会(IDCC2025)在北京举行,主题为“重塑算力 破界而生”。博大数据副总裁高辉在论坛上发表演讲,指出万卡集群已成为AI时代的数字基础设施,是推动AI从“可选项”向“标配化”转变的关键。他强调,AI智能体正从感知迈向行动,其落地速度决定企业竞争力。面对指数级算力需求,下一代智算中心需向绿色、高效、协同方向进化。博大数据正以全球化布局、全栈交付能力和绿色发展理念,致力于打造支撑AI规模化发展的“数字世界引擎”。

  • TME们的黄金时代,迎来AI终结者

    过去十年,中国与全球的音乐流媒体平台都在同一套逻辑下运行:依赖庞大的版权曲库、依赖订阅制、依赖“以版权为护城河”的内容供给方式,稳稳地坐在产业链的中心位置。 无论是 TME,还是网易云,平台之间的竞争从本质上都不是产品之争,而是版权之争——谁拥有更完整的曲库、谁能锁定更多独家资源,谁就拥有更牢固的用户粘性。 然而,随着AI音乐过去一年里爆发式

  • 小度AI眼镜Pro获评WISE2025年度焦点产品奖,多模态交互定义硬件新形态

    在36氪WISE2025大会上,小度科技CEO李莹以“智能深潜,硬件开始觉醒”为主题,系统阐述了大模型时代智能硬件的演进方向。她强调,场景、AI与硬件的深度融合是破局关键,并以小度AI眼镜Pro为例,展示了“第一视角智能”的创新突破,具备智能构图、防抖、降噪等功能,实现无缝交互体验。同时,小度智能摄像机开创“上帝视角智能”,支持AI随心看护和智能寻物。这些产品背后是全新“超能小度”AI助手,通过多模态交互实现从“能听会说”到“能看会想”的质变。小度宣布为已售设备免费升级,彰显AI普惠决心。小度AI眼镜Pro获“WISE2025年度焦点产品奖”,印证行业对其创新高度认可。

  • 易鑫开源汽车金融业首个Agentic大模型,加速AI生态共建

    易鑫集团(02858.HK)宣布开源其自主研发的Agentic大模型YiXin-Agentic-Qwen3-14B,成为汽车金融行业首个开源此类模型的企业。该模型基于通义千问Qwen3-14B深度优化,具备卓越推理、复杂任务处理及多方协作的智能体能力,在多项性能测试中位列榜首,推理成本较行业平均水平降低三分之一。模型搭载金融领域专属知识体系与工具集,覆盖语音交互、车辆评估、风控、欺诈识别等功能,形成全链路智能支撑体系。易鑫提出“底座开放-社区共建-能力迭代-企业部署-生态繁荣”的开源共建模式,通过提供低代码私有化模板,帮助企业快速落地AI应用。此次开源与之前发布的行业首个开源推理大模型YiXin-Distill-Qwen-72B形成“垂直底座+Agentic大脑”双轮技术矩阵,填补了汽车金融领域专业开源AI工具链的空白。

今日大家都在搜的词: