快科技5月6日消息,今日,火山引擎宣布推出Doubao-Seed-2.0-lite新版本,这是豆包大模型家族中首款实现全模态理解的模型。
据介绍,新版Doubao-Seed-2.0-lite能够对视频、图像、音频和文本进行原生统一的处理与理解,同时其Agent、Coding及GUI能力也得到同步增强,进一步提升了在复杂业务场景下的多模态推理表现。
在视觉理解领域,Doubao-Seed-2.0-lite取得了显著进步。在物理HiPhO、医疗MedXpertQA等高阶学科推理任务中,新版本的表现已大幅超越今年2月发布的Doubao-Seed-2.0-pro。
此外,该模型在细粒度感知BabyVision、WorldVQA以及具身理解ERQA等关键领域均达到行业领先水平,更适合企业在高价值场景中进行大规模部署。
加粗表示最优结果,下划线表示次优结果
本次升级的一大亮点是融入了语音理解能力。新版本能够同时处理多种输入模态,并完成跨模态联合推理,直接应对那些需要音画结合才能判断的复杂业务需求。
例如,在视频理解场景中,Doubao-Seed-2.0-lite可以联合分析视频画面与音频信息,精准判断视听内容的一致性,即“看到的”与“听到的”是否匹配。
它还能根据自然语言指令,在视频中精准定位特定事件的发生时间点,跨越多个时间段提取关键线索,持续追踪人物与事件发展,基于画面进行多步逻辑推理,还原事件关系与行为脉络。
在音频能力方面,新模型支持19个语种的精准语音转写,并实现中英文与其他14个语种之间的互译。
此外,它还能捕捉语音中的情绪变化、环境背景声以及音乐细节,输出更完整、更接近人类认知的语义信息。

根据公开评测集数据,Doubao-Seed-2.0-lite在语音识别、翻译等多项音频理解基准上表现优于Gemini-3.1-Pro。
值得关注的是,Doubao-Seed-2.0-lite还深度适配了OpenClaw、Hermes Agent等框架,强化了深度搜索与Skill动态调用能力。在执行任务过程中,它能够持续沉淀经验,实现“越用越聪明”的效果。
(举报)
