首页 > AI头条  > 正文

商汤开源NEO架构:原生多模态模型放弃“拼图式”设计,数据量减90%仍拿下SOTA

2025-12-03 10:18 · 来源: AIbase基地

商汤科技联合南洋理工大学 S-Lab 发布行业首个原生多模态架构 NEO,并同步开源2B 与9B 两款模型。新架构摒弃“视觉编码器 + 投影器 + 语言模型”的传统三段式方案,从注意力机制、位置编码到语义映射全部重写,官方称在同等性能下数据需求仅为业界平均的1/10,首次实现“像素到 Token”的连续映射。

image.png

据商汤技术负责人介绍,NEO 通过原生图块嵌入层直接读取像素,取消独立图像 Tokenizer;三维旋转位置编码(Native-RoPE)在同一向量空间内同时表达文本与视觉时空频率;多头注意力采用“视觉双向 + 文本自回归”混合计算,空间结构关联得分提升24%。实测显示,在0.6B-8B 参数区间内,NEO 在 ImageNet、COCO 与 Kinetics-400上取得 SOTA,边缘设备推理延迟低于80毫秒。

image.png

GitHub 已公开模型权重与训练脚本,商汤计划明年第一季度开源3D 感知与视频理解版本。业内人士认为,NEO 的“深层融合”路线有望结束多模态“拼积木”时代,为终端小模型提供新的性能基线。

  • 相关推荐
  • 谷歌AI眼镜官宣明年问世:搭载Gemini多模态模型

    谷歌宣布,正与三星、Gentle Monster及Warby Parker等合作伙伴共同研发两种类型的AI智能眼镜,预计新产品将于2026年面市。 谷歌硬件负责人Payne表示,公司已从过往经历中吸取教训。新款眼镜将深度集成其先进的Gemini大模型,在无需双手操作的情况下,用户可实现拍照、导航、接听电话及识别眼前物体等功能,其定位与Meta和雷朋合作推出的智能眼镜相似。 此次发布的产品线将分�

  • 全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单

    全球首个大一统多模态视频创作工具“可灵O1”正式上线。它基于全新视频图像模型,以自然语言为语义骨架,融合视频、图片、主体等多模态描述,将生成和编辑任务整合于一个全能引擎中,为用户提供从灵感到成品的闭环创作体验。该模型打破传统单一视频生成任务边界,支持参考生视频、文生视频、首尾帧生视频、视频内容增删、风格重绘等多种任务,用户无需在多个工具间跳转即可一站式完成全流程创作。

  • 可灵AI O1正式上线:号称全球首个统一多模态视频大模型

    可灵AI正式发布全新O1视频大模型,被誉为全球首个统一多模态视频大模型。该模型基于创新的多模态视觉语言交互架构,用户可在单一输入框内无缝融合文字、图像、视频等多种指令,实现跨模态内容的高效创作。其技术突破解决了传统视频生成工具功能割裂、操作复杂的痛点,并攻克了视频中主体特征漂移的行业难题,支持长达310秒的自由生成时长。目前用户可通过可灵App及官网体验。

  • 为AI Agent时代筑基,火山引擎多模态数据湖方案重塑数据处理范式

    人工智能时代全球数据量激增,预计2028年将达393ZB,其中80%为非结构化数据。火山引擎推出多模态数据湖方案,以Lance存储+Daft计算为核心,解决数据处理痛点:存储层实现高压缩比与灵活Schema,计算层通过延迟计算提升70%效率。该方案在智能驾驶等场景显著优化性能,端到端处理时间缩短70%,资源利用率提升至95%以上。平台还推出"算子广场"降低开发门槛,并推出Data Agent实现自然语言交互的数据分析,推动企业构建以数据消费为导向的治理体系。

  • 科杰科技位列赛迪数据智能领导者象限,打造Data&AI数据基础设施新范式

    赛迪顾问发布《2025中国数据智能市场研究报告》,指出在AI技术突破背景下,数据与智能双向赋能趋势显著。报告显示,2024年中国数据智能市场规模达2586亿元,同比增长43.2%,Data&AI一体化融合成为主流。科杰科技凭借在AI原生数据基础设施领域的全栈自研能力、关键行业深度落地成果及前瞻性实践,位列“领导者象限”。报告强调,新一代数据智能平台正朝着Data&AI一体化方向演进,科杰科技打造的KeenData Lakehouse平台,通过“可信+智能+系统”能力推进“Data&AI”新基建,支撑大型组织从数据驱动迈向智能驱动。

  • 声网对话式 AI Studio 零代码也能快速开发对话式 Agent

    声网在RTE2025大会上发布对话式AI Studio 1.0,定位“零代码生产级智能体工厂”,旨在降低开发门槛。平台通过可视化编排、模块化设计及生态资源整合,让非技术用户也能快速打造专属智能体。它提供场景化模板与插件商店,覆盖智能客服、情感陪伴等热门场景,并支持第三方资源一键集成。平台还与模型评测平台联动,为用户推荐最优模型组合。新增的AI外呼功能支持SIP接入与PSTN连接,便于企业部署智能外呼/内呼。目前产品已上线,新用户可获免费体验包,助力企业低成本快速落地项目。

  • 易鑫开源汽车金融业首个Agentic大模型,加速AI生态共建

    易鑫集团(02858.HK)宣布开源其自主研发的Agentic大模型YiXin-Agentic-Qwen3-14B,成为汽车金融行业首个开源此类模型的企业。该模型基于通义千问Qwen3-14B深度优化,具备卓越推理、复杂任务处理及多方协作的智能体能力,在多项性能测试中位列榜首,推理成本较行业平均水平降低三分之一。模型搭载金融领域专属知识体系与工具集,覆盖语音交互、车辆评估、风控、欺诈识别等功能,形成全链路智能支撑体系。易鑫提出“底座开放-社区共建-能力迭代-企业部署-生态繁荣”的开源共建模式,通过提供低代码私有化模板,帮助企业快速落地AI应用。此次开源与之前发布的行业首个开源推理大模型YiXin-Distill-Qwen-72B形成“垂直底座+Agentic大脑”双轮技术矩阵,填补了汽车金融领域专业开源AI工具链的空白。

  • 行业首家!易鑫正式开源Agentic大模型,定义汽车金融AI新范式

    易鑫宣布开源自主Agentic大模型YiXin-Agentic-Qwen3-14B,成为汽车金融行业首个开源此类模型的企业。该模型基于Qwen3-14B,参数规模140亿,通过多阶段训练体系深度优化,在智能体协作、函数调用、推理等能力上可比肩参数200B以上的商用大模型。多项专业评测显示,其在金融专业知识理解方面显著优于DeepSeek V3.1、Kimi-K2等主流模型,并在智能体工具使用任务中同样表现卓越,位居同尺寸模型性能测试首位。该模型既展现出强劲的专业理解力与协作推理能力,又兼具高实用性与经济效益,将为汽车金融及各类专业场景提供高效、可靠的智能引擎。易鑫以技术创新为核心驱动力,持续引领行业迈向智能化转型。

  • 小度AI眼镜Pro获评WISE2025年度焦点产品奖,多模态交互定义硬件新形态

    在36氪WISE2025大会上,小度科技CEO李莹以“智能深潜,硬件开始觉醒”为主题,系统阐述了大模型时代智能硬件的演进方向。她强调,场景、AI与硬件的深度融合是破局关键,并以小度AI眼镜Pro为例,展示了“第一视角智能”的创新突破,具备智能构图、防抖、降噪等功能,实现无缝交互体验。同时,小度智能摄像机开创“上帝视角智能”,支持AI随心看护和智能寻物。这些产品背后是全新“超能小度”AI助手,通过多模态交互实现从“能听会说”到“能看会想”的质变。小度宣布为已售设备免费升级,彰显AI普惠决心。小度AI眼镜Pro获“WISE2025年度焦点产品奖”,印证行业对其创新高度认可。

  • “放弃”超头主播,MCN卷向“中台”

    ​又一位超头主播选择单飞,这次是“快手一姐”蛋蛋。 近日,蛋蛋被传注册了两家新公司,并在直播间回应与辛选解约。 蛋蛋是辛选集团的头部主播,带货实力有目共睹。据报道,蛋蛋6年带货GMV高达960亿元,今年“双11”总销售额超过50亿元。 顶流主播为啥都忙着“解绑”?MCN和超头主播之间,到底是散了伙,还是有了新的合作模式?

今日大家都在搜的词: