首页 > AI头条  > 正文

字节跳动发布全模态大模型Doubao-Seed-2.0-lite,AI能听会看还能直接“上手”干活

2026-05-07 09:07 · 来源: AIbase基地

字节跳动旗下火山引擎于5月6日宣布,豆包大模型家族正式迎来首款全模态理解模型——Doubao-Seed-2.0-lite。作为该系列的重磅升级版本,新模型彻底打破了单一模态的限制,实现了视频、图像、音频与文本的原生统一理解,标志着其在多模态交互领域迈出了关键一步。

image.png

该模型在视觉与逻辑推理能力上表现尤为亮眼。在物理、医疗等高阶学科的复杂推理测试中,其性能已大幅超越今年2月发布的Pro版本。而在细粒度感知以及具身理解等前沿领域,该模型更是达到了行业领先水平。通过融入语音理解技术,Doubao-Seed-2.0-lite 能够实现“音画同步”的深度联合推理。这意味着它不仅能“看懂”视频画面,还能结合背景音频精准判断视频内容的视听一致性,甚至能根据指令在长视频中精准定位特定事件,并还原复杂的人物关系脉络。

image.png

在音频处理层面,新模型展现了极高的翻译与感知精度,支持包括中英在内的19种语种转写及14个语种的互译。除了精准的语义识别,它还能敏锐捕捉语音中的情绪波动及环境背景声,使其理解能力更接近人类的自然认知。

image.png

值得关注的是,Doubao-Seed-2.0-lite 的 Agent(智能体)与 Coding(编程)能力也同步完成了进化。模型对多轮复杂指令的遵循度显著提升,具备了更强的自我拆解与校验能力。在开发领域,它的代码能力已覆盖前端页面、3D场景及游戏开发,能够交付视觉美观且工程完整的产物。

image.png

此外,该模型首次实现了GUI(图形用户界面)理解与执行的一体化。它不仅能识别网页或应用中的按钮、菜单等元素,还能像真人一样完成点击、拖拽、输入等操作,真正实现了从“读懂界面”到“端到端交付任务”的闭环。

目前,这一技术已在电竞复盘、在线教育及跨境电商等多个领域落地。例如在电竞场景中,AI可以作为教练,连续分析长达25小时的比赛视频与语音,自动生成战术复盘图谱。与此同时,更高效的 Doubao-Seed-2.0-mini 版本也已同步上线,为企业大规模、低成本部署全模态推理任务提供了更具性价比的选择。

  • 相关推荐
  • AI日报:千问PC端上线AI语音输入;字节发布全模态大模型Doubao-Seed-2.0-lite;谷歌更新AI搜索功能

    本期AI日报涵盖多项重要进展:千问PC端上线AI语音输入,提升办公效率;字节跳动发布全模态大模型Doubao-Seed-2.0-lite,实现视频、图像、音频与文本统一理解;腾讯联合多所高校推出开源多模态深度搜索智能体方案OpenSearch-VL;月之暗面申请“KimiClaw”商标,或涉硬件领域;Mininglamp开源Cider和Mano-P,打造本地AI工作站;OpenAI携手硬件巨头发布MRC协议,解决GPU闲置浪费;谷歌升级AI搜索功能,整合Reddit等社交观点;xAI推出Grok Imagine API质量模式,提升图像生成写实度。

  • 能看懂、听懂!豆包Seed 2.0 Lite升级:首款全模态理解模型

    火山引擎宣布Doubao-Seed-2.0-lite升级,成为豆包大模型家族首款全模态理解模型。新版支持视频、图像、音频、文本原生统一理解,并同步升级Agent、Coding与GUI能力,增强多模态推理。在视觉理解上,该模型在物理HiPhO、医疗MedXpertQA等高阶学科推理任务中大幅超越2月发布的Doubao-Seed-2.0-pro,并在BabyVision、WorldVQA等领域达SOTA水平。升级重点融入语音理解,可同时处理多种输入模态并完成跨模态联合推理,支持19语种语音转写及中英等互译,捕捉情绪、环境声等细节。该模型还深度适配OpenClaw等框架,强化深度搜索与Skill动态调用,实现越用越聪明。

  • 多模态训练提速45% 百度智能云推出开源全模态训练框架

    多模态大模型时代,训练基础设施正面临结构性错位。传统框架基于“数据同质、结构单一、平台固定”设计,难以应对多模态异构数据、模型组件协同及跨平台算力需求。百度百舸开源的全模态训练框架LoongForge,以Megatron为核心引擎,通过统一模型抽象、系统层优化和硬件插件化设计,实现“一套代码多平台运行”。其CCT通算传并行、ChunkPipe流水线并行、自适应FP8等技术,在主流模型上实现15%-45%端到端训练加速,在DeepSeek等前沿架构上实现倍级性能提升,并在5000+卡昆仑P800集群上达到90%+线性扩展效率。

  • 华为HMS for Car北京车展实车体验,海外AI大模型上线

    在2026年北京车展上,华为HMS for Car推出全新升级的一站式座舱生态解决方案,以AI为核心,整合AI Box、Map Box、Service Box和Net Box四大模块,解决海外市场地图更新滞后、多语言适配成本高、生态适配难和跨国网络接入管理等痛点。AI Box搭载大模型,支持多语言语音交互,Map Box提供实时导航,Service Box聚合全球生态,Net Box确保稳定连接,助力中国车企降低研发成本,加速全球化布局。

  • 已购歌曲下架还能听吗 网易云音乐回应:不影响播放下载

    今日,网易云音乐发布关于已购歌曲的说明”,回应用户对已购歌曲下架后播放、下载等权益的关注。 网易云音乐表示,已购歌曲拥有永久播放和下载权益,不会因为歌曲版本下架而消失。 据介绍,因当前版本歌曲版权到期等原因,部分歌曲可能会下架,若用户在下架前已经购买,仍可在已购列表中正常播放和下载。 不过,网易云音乐也提到了一种特殊情况:版权方重新�

  • 百度文心大模型5.1正式发布

    百度正式发布了新一代基础大模型——文心大模型5.1。该模型采用了自主研发的“多维弹性预训练”技术,仅以业界同规模模型约6%的预训练成本,便达到了基础效果领先的水平,并登上LMArena搜索榜国内第一的位置。 在多项行业权威基准测试中,文心5.1在智能体、知识理解、逻辑推理以及深度搜索等核心能力上表现突出。其中,智能体能力提升显著,已超越DeepSeek-V4-Pro;创意�

  • 普渡机器人正式发布具身智能大模型PuduFM 1.0

    2026年5月11日,普渡机器人发布具身智能大模型PuduFM1.0,构建三维空间深度感知、物理状态预测和持续进化学习三大技术维度,实现从“简单执行”向“物理认知”的跨越。该模型通过分层架构和虚实双数据闭环,解决行业在协作、操作和异构数据复用上的困境,支持超长程任务和异构机器统一运行,推动具身智能规模化落地。

  • 小米自研AI大模型!Xiaomi MiMo再次登顶全球第一

    小米官方今天发文宣布,小米技术官方宣布,在OpenRouter平台最新数据中,Hermes Agent登顶全球调用量榜首,日Token调用量达2910亿,周调用量超1.75万亿。 小米自研MiMo模型成为第一大贡献模型,近一个月累计贡献1.45万亿Token调用量。

  • AI日报:字节跳动发布Seed3D2.0;小米 MiMo-V2.5公测;阿里Qwen3.6-27B正式开源

    本期AI日报聚焦八大热点:1. 字节跳动发布Seed3D 2.0,几何与纹理达SOTA,推动AI 3D生成迈向生产级可用;2. 小米MiMo-V2.5系列大模型公测,Pro版与顶尖模型角力,支持全模态Agent;3. 阿里通义千问开源Qwen3.6-27B,编程能力突出;4. 灵光App推“分一亿激励计划”,每日最高投入100万激励创作者;5. 高德发布基于千问的汽车出行AI Agent,实现主动意图理解;6. 腾讯开源Hy3 Preview模型,推理与指令遵循提升;7. 大麦娱乐联合阿里通义发布“妙呀”平台,打造首个AI潮玩设计工具;8. 东航首家接入通义千问,实现全流程AI购票服务。

  • 百度智能云联合中国信通院共建AI终端生态 加速大模型落地消费电子

    5月14日,百度智能云联合中国信通院等30余家单位发起“智能终端大模型生态加速社区”倡议,推动消费电子产业在大模型时代实现生态协同、技术共创与标准共建。随着AI技术演进,智能终端正从功能设备向“智能伙伴”转型,但面临互联互通不足、开发门槛高、标准体系不完善等问题。社区将围绕技术攻关、市场研究、标准落地、测试认证、场景孵化、交流联动六大方向建设,通过开放协同机制降低创新门槛,打造开放、兼容、安全、普惠的AI终端生态,促进全产业链协同发展。

今日大家都在搜的词: