仅20B参数！字节推出Seed1.5-VL多模态模型，实现38项SOTA

2025-05-14 14:46 · 来源： AIbase基地

在上海举办的火山引擎 FORCE LINK AI 创新巡展上，字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力，成为此次活动的焦点，吸引了众多业界专家和开发者的关注。

Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。与之前的版本相比，Seed1.5-VL 在视觉定位和推理的速度与准确性上有了显著提升。此外，新增的视频理解和多模态智能体功能，使其在处理复杂任务时表现更加出色。

超高性能与低成本优势

尽管 Seed1.5-VL 的激活参数仅为20B，但其性能已经达到了与 Gemini2.5Pro 相当的水平。在60个公开评测基准中，Seed1.5-VL 在38个任务上取得了 SOTA（state-of-the-art）表现，尤其是在视频理解、视觉推理和多模态智能体能力方面，均处于行业领先地位。

在推理成本方面，Seed1.5-VL 也表现出色，其推理输入价格为每千 tokens 仅0.003元，输出价格为每千 tokens 仅0.009元，极具性价比。

便捷的 API 接入

目前，Seed1.5-VL 已经在火山引擎全面开放 API，开发者只需登录后选择 Doubao-1.5-thinking-vision-pro，即可快速调用其能力，构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。

为验证 Seed1.5-VL 的实际性能，记者进行了多项测试。通过上传一张货架图片，Seed1.5-VL 能够迅速识别出特定产品并计算其价格。在复杂的公务员图形推理题目中，Seed1.5-VL 也显示出了其强大的推理能力，能够在短时间内捕捉并推导出其中的规律，完成难度较大的逻辑任务。

Seed1.5-VL 作为 Seed 系列最新一代多模态模型，经过在超过3T token 的多模态数据上进行预训练，展现出在图像问答、图表理解、视觉推理等多个任务上的卓越表现。该模型由三个核心组件构成，包括视觉编码模块 SeedViT、用于视觉特征投影的多层感知机（MLP）适配器以及基于 MoE 架构的大语言模型 Seed1.5-LLM。

GitHub:https://github.com/ByteDance-Seed/Seed1.5-VL
https://seed.bytedance.com/zh/tech/seed1_5_vl

相关推荐

荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

本期AI日报聚焦多项技术突破：阿里通义万相发布Wan 2.2-S2V模型，实现视频音频同步生成；字节跳动研发3D模型生成工具，降低建模门槛；面壁智能推出MiniCPM-V4.5端侧多模态模型；苹果提出RLCF训练法提升模型性能；微软开源VibeVoice-1.5B支持超长语音合成；谷歌Imagen 4正式上线；英伟达发布Jetson Thor机器人计算平台；Genspark推出AI Designer一键生成品牌方案；豆包上线未成年人保护模式。

AI视频生成多模态AI 阿里通义万相
寒武纪智能芯片赋能多模态大模型应用

大模型快速发展推动人工智能技术迈向新阶段，从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示，2024年中国大模型开发平台市场规模达16.9亿元，人工智能算力市场约190亿美元，预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发，推出多款处理器及加速卡产品，支持大模型训练推理及多模态任务，并与产业链合作共同推进人工智能产业发展。

大模型人工智能强人工智能
荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

本期AI日报聚焦多项AI技术突破：智谱发布革命性语音代理AutoGLM 2.0，实现全平台语音操控；腾讯元宝接入视频平台提升观影便捷性；字节跳动开源大模型Seed-OSS专注长文本处理；速卖通AI代理助力新品推广效率翻倍；微软测试Copilot智能文件搜索功能；Liquid AI推出低延迟视觉语言模型LFM2-VL；OpenAI月收入首破10亿美元；谷歌Pixel 10系列全面升级AI功能，包括情感识别和实时翻译；Pixel Buds Pro 2引入AI手势控制；ElevenLabs发布支持70+语言的文本转语音API。

AI产品 AutoGLM 2.0
荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

本期AI日报聚焦多项技术突破：字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频；爱诗科技PixVerse V5全球上线支持多场景创作；腾讯开源Youtu-agent框架提升AI开发效率；百度智能云发布百舸AI计算平台5.0；OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现，展现人工智能领域快速发展的技术迭代与生态建设。

AI视频生成 OmniHuman-1.5 字节跳动
九号公司发布M5系列智能电摩，自研凌波OS同步推出，支持一键OTA

2025年8月26日，九号公司发布M5系列智能电摩，包括M5100、M5125、M5200及M5P初号机联名限量款。新车以长续航、大空间、强性能与智能化为核心优势，搭载凌波OS全域操作系统，支持OTA升级与生态融合。M5系列覆盖不同出行场景，续航最高达195km，配备智能驾控系统与专业调校底盘。同时推出与《新世纪福音战士》联名限量款，融合IP元素与定制配件，计划11月交付。此次发布彰显九号在智能两轮出行领域的技术实力与生态布局。

智能电摩九号公司凌波OS
小米澎湃OS 3首批Beta版正式推送！手机、平板8款机型升级

根据小米社区网友反馈，小米澎湃OS3首批Beta版内测更新目前已开启推送。有内测资格用户可以点击手机设置-我的设备-击版本号查看是否收到推送。升级页面显示，小米15 Pro的澎湃OS3Beta安装包大小7.7GB，小米15 Ultra安装包大小9GB。

小米澎湃OS3 Beta版内测系统更新
小米澎湃OS 3 Beta推送计划发布：首批8月29日起推送看看有你手机没

今日，小米澎湃OS 3正式发布，同时发布Beta版推送计划。据了解，Beta版首批机型将于8月29日开启陆续推送，更多机型将陆续覆盖，具体如下： 8月29日开启陆续推送小米15、小米15 Pro、小米15S Pro、小米15 Ultra、REDMI K80 Pro、REDMI K80至尊版、小米平板7 Pro、小米平板7S Pro 12.5。不晚于9月17日开启推送小米MIX Flip 2、REDMI K80、小米平板7 Ultra、小米平板7、REDMI K Pad、小米电视S Pro Mini

小米澎湃OS 3 Beta版推送计划
荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

【AI日报】主要内容： 1. B站测试"花生AI"视频工具，3分钟可成片，同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0，实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI，苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐，仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新：恢复GPT-4o默认模式，为GPT-5引入多模式选择，优化交互体验

AI视频创作花生AI B站AI工具
小米张国全回应澎湃OS 3 Beta版是否本月推出：不能说很快！

小米集团日前发布了第二季度财报，小米手机系统软件部总监张国全转发了该消息，并表示坚定投入核心技术，连续3个季度超千亿”。有网友在评论区问到，澎湃OS 3 Beta版是否会在这个月推出，张国全回复称：不能说，很快”。另外，近期国产手机厂商都纷纷接入了12306，可以在系统内方便的展示购票信息。也有网友问到了澎湃这边什么时候接入，张国全称：本来计划OS3一�

小米财报澎湃OS 12306接入
小米澎湃OS 3今日发布首批29日启动Beta测试推送

今日15:00，小米集团将正式发布新一代手机操作系统小米澎湃OS3，同步在小米社区开启Beta版招募通道。据官方披露，为保障系统稳定性与用户体验，本次测试将采取分批次推送策略，首批八款适配机型用户将于8月29日起陆续收到更新，第二批用户预计在首批推送后10天内完成升级。此次纳入Beta测试的机型覆盖小米与REDMI双品牌旗舰，包括小米15系列四款机型（小米15、小米15Pro�

小米澎湃OS3 Beta版招募分批次推送

今日大家都在搜的词：

热文

3 天
7天

仅20B参数！字节推出Seed1.5-VL多模态模型，实现38项SOTA

荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

寒武纪智能芯片赋能多模态大模型应用

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

九号公司发布M5系列智能电摩，自研凌波OS同步推出，支持一键OTA

小米澎湃OS 3首批Beta版正式推送！手机、平板8款机型升级

小米澎湃OS 3 Beta推送计划发布：首批8月29日起推送看看有你手机没

荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

小米张国全回应澎湃OS 3 Beta版是否本月推出：不能说很快！

小米澎湃OS 3今日发布首批29日启动Beta测试推送

今日大家都在搜的词：

热文

华为MatePad Mini官宣9月4日发布

今日七夕节微信 520 元大额红包限时上线

史上最大Mate！华为智慧屏MateTV将于9月4日发布

AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发

华为上半年营收4270亿元同比增长3.95%：净利润371.95亿元

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

小米回应升级Beta后手机很烫：系统编译致短期功耗增加

迷你LABUBU开售后卖爆多平台已售罄：电商平台销量破百万

华为MatePad Mini官宣9月4日发布

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

今日七夕节微信 520 元大额红包限时上线

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

何小鹏回应小鹏命名：称有人说小鹏改名销量翻倍

站长商机

​仅20B参数！字节推出Seed1.5-VL多模态模型，实现38项SOTA

今日大家都在搜的词：

热文

站长商机

仅20B参数！字节推出Seed1.5-VL多模态模型，实现38项SOTA