商汤科技迈向多模态大模型的新纪元

2025-05-09 15:26 · 来源： AIbase基地

在过去的两年里，人工智能领域的关注点逐渐转向了大模型的技术发展，而商汤科技作为一家成立不到十年的公司，凭借其在计算机视觉领域的技术积累，正迅速转型，迎接这一浪潮。尽管在2023年之前，商汤主要聚焦于视觉模型，但随着 DeepSeek R1的发布，市场的重心开始向自然语言处理和大规模参数模型倾斜，商汤的策略也随之调整。

商汤于4月10日推出的全新6000亿参数多模态大模型 “日日新 Sense Nova V6”，展现了强大的综合能力，与国际领先的 GPT-4.5和 Gemini2.0Pro 不相上下。商汤不仅成功弥补了文本模型的差距，更在多模态领域厚积薄发，标志着其在国内大模型市场中越来越重要的地位。

元宇宙科幻赛博朋克绘画 (5)大模型

图源备注：图片由AI生成，图片授权服务商Midjourney

值得注意的是，商汤在构建其多模态模型的过程中，采用了独特的思维链构建方法。通过将文本、图像、语音和视频数据融合，商汤的日日新 V6能在同一上下文中进行有效的推理，达到1+1>2的效果。这一创新不仅提升了模型的理解与生成能力，也使得多模态之间的协同作用更加显著。

当前，尽管市场上出现了众多多模态模型，能够同时处理多种数据模态的产品依然屈指可数。商汤的日日新 V6凭借其在多模态数据融合方面的成功，逐渐显示出其在未来人工智能竞争中的强大潜力。

相关推荐

可灵AI发布全新2.0模型：上线多模态视频编辑功能

快科技4月16日消息，据报道，可灵AI在北京举行灵感成真”2.0模型发布会，正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍，可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先；可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日，全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单，快手可灵1.6pro（高品质模

可灵AI 视频生成模型图像生成模型
荐多模态和Agent成为大厂AI的新赛点

这是《窄播Weekly》的第52期，本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景，多模态能力和代理执行成为两个焦点。大模型落地C端场景的核心，就是让大模型的能力越来越接近人。沿着这个主旋律，可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现，需要给到大模型多

AI竞争策略多模态能力大模型应用
荐多模态和Agent成为大厂AI的新赛点

本期《窄播Weekly》聚焦AI大厂竞争策略向应用场景倾斜的趋势，重点分析了多模态能力和代理执行两大发展方向。文章指出，大模型落地的核心在于让人机交互更自然，具体表现为：1）通过多模态技术降低用户使用门槛，如阿里夸克新推出的"拍照问夸克"功能；2）通过代理执行提升复杂任务处理能力，如字节、百度等推出的通用Agent产品。国内外厂商路径差异明显：国�

AI应用场景多模态能力代理执行
开源即支持！基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

多模态理解领域当前已成了各家AI大模型公司“军备竞赛”的关键点之一，国内外知名AI大模型公司都争相通过发布最先进的多模态大语言模型展现其在多模态理解领域的前沿能力。近期，上海AI实验室推出了其最新的多模态大语言模型InternVL3 系列，相比上一代InternVL2. 5 模型，该模型展现出卓越的多模态感知和推理能力，同时进一步扩展了其工具使用、GUI代理、工业图像分析等

多模态理解 AI大模型 InternVL3
荐从大模型到AI基础设施，商汤的反向求解

大模型落地如火如荼，从上一代AI浪潮中杀出来的商汤，嗅到了这里面新的机会。在最火的具身智能赛道，这两年诞生了许多明星创业公司。这些创业公司的创始人往往拥有技术明星的光环，不少都是在学术界中某个技术领域中响当当的领头人。这些初创公司虽然在某一个单点技术上遥遥领先（大脑、小脑或者本体），但在机器人落地过程中，要突破从单一技术到整体复杂产品

大模型具身智能机器人技术
紫东太初多模态RAG全新发布：端到端问答准确率提升33%

在产业智能化进程中，如何高效融合企业专有知识资产，构建领域专属认知引擎，是企业迈向智能决策与高效运营的关键。然而，传统检索增强生成(RAG)技术受限于语言单模态处理能力，仅能实现文本知识库与文本查询之间的浅层理解，难以满足复杂业务场景的需求，在实际应用中暴露出两大缺陷:信息表征缺失:忽略知识库中多模态富文档的视觉语义信息，如版面结构、图表关�

产业智能化企业知识资产多模态检索
荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

复旦大学与美团研究者提出UniToken框架，首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码，有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略（视觉语义对齐、多任务联合训练、指令强化微调），UniToken在多个基准测试中性能超越专用模型。其创新性体现在：1）统一的双边视觉编码

UniToken 多模态建模视觉编码
业界唯一！百度网盘上线多模态AI笔记效率提升10倍

快科技5月2日消息，过往，用户在通过视频学习并记录笔记时，总免不了要不停切换平台软件，暂停、截屏、记录、插图、批注、切换返回视频过程繁琐而低效。为了应对这种情况，百度网盘和百度文库联合研发上线了AI笔记”，支持全自动学习、半自动学习、辅助学习三种模式。如今只要在网盘里面任意打开一个学习视频，在右侧就能看到AI笔记”功能，用户可以自主输入内容，也可以让其直接生成图文并茂、结构清晰的笔记。而且每个重要知识点旁会有时间戳，点击时间戳即可跳转到视频中对应位置，实现视频和笔记内容的顺滑关联。此外AI笔记”还可以帮

百度网盘 AI笔记视频学习
妙音数科领航 VR 创新，《一念幻世》开启沉浸式科技新纪元

北京妙音数科推出国内首个"AI觉醒与人类文明存续"主题VR大空间沉浸项目《一念幻世》。该项目融合AI与VR技术，采用厘米级精准追踪系统，支持玩家在数百平米真实场地自由探索虚拟场景。创新性地结合AI智能实时语音对话与手势识别技术，实现"所见即所感"的沉浸体验。项目以AI觉醒危机为主线，通过交互式解谜引导玩家思考科技伦理问题。首发落地河北邯郸�

AI技术虚拟现实沉浸式体验
LIFETOO品牌麦角硫因：开启抗衰养颜新纪元

LIFETOO是一个专注于抗衰老营养健康的品牌，由多位生物学博士创立，依托美日先进营养科学技术研发产品。其明星产品麦角硫因胶囊具有强效抗氧化功效，能改善皮肤状态、增强弹性。品牌拥有专业研发团队和自有生产线，产品通过严格质量控制，在全球多个国家销售并获得消费者认可。LIFETOO坚持"探索营养与健康的未来"理念，致力于为消费者提供高品质、个性化的营养呵护方案。

抗衰老年轻美丽膳食营养

今日大家都在搜的词：

热文

3 天
7天

商汤科技迈向多模态大模型的新纪元

可灵AI发布全新2.0模型：上线多模态视频编辑功能

荐多模态和Agent成为大厂AI的新赛点

荐多模态和Agent成为大厂AI的新赛点

开源即支持！基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

荐从大模型到AI基础设施，商汤的反向求解

紫东太初多模态RAG全新发布：端到端问答准确率提升33%

荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

业界唯一！百度网盘上线多模态AI笔记效率提升10倍

妙音数科领航 VR 创新，《一念幻世》开启沉浸式科技新纪元

LIFETOO品牌麦角硫因：开启抗衰养颜新纪元

今日大家都在搜的词：

热文

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

基于安卓16的三星 One UI 8 本月发布首个测试版本

苹果“为彼此创造”不再？听乔纳森·艾维忆往昔、谈传承

三星推出新型微显示技术，加剧 AR 眼镜竞争

全网最大的“AI色情网站”MrDeepfakes宣布永久关闭

马斯克称地球会被太阳焚化，网友：有科学依据，但…

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

20周年纪念版iPhone迎来重大变革，全屏设计+屏下摄像头

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

2025 年，SpaceX 发射了多少枚火箭？

苹果高管称：10 年后，可能 iPhone 将不复存在！

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

站长商机