首页 > 业界 > 关键词  > 豆包大模型最新资讯  > 正文

能看懂、听懂!豆包Seed 2.0 Lite升级:全模态理解模型

2026-05-06 22:21 · 稿源: 快科技

快科技5月6日消息,今日,火山引擎宣布推出Doubao-Seed-2.0-lite新版本,这是豆包大模型家族中首款实现全模态理解的模型。

据介绍,新版Doubao-Seed-2.0-lite能够对视频、图像、音频和文本进行原生统一的处理与理解,同时其Agent、Coding及GUI能力也得到同步增强,进一步提升了在复杂业务场景下的多模态推理表现。

在视觉理解领域,Doubao-Seed-2.0-lite取得了显著进步。在物理HiPhO、医疗MedXpertQA等高阶学科推理任务中,新版本的表现已大幅超越今年2月发布的Doubao-Seed-2.0-pro。

此外,该模型在细粒度感知BabyVision、WorldVQA以及具身理解ERQA等关键领域均达到行业领先水平,更适合企业在高价值场景中进行大规模部署。

能看懂、听懂!豆包Seed 2.0 Lite升级:首款全模态理解模型加粗表示最优结果,下划线表示次优结果

本次升级的一大亮点是融入了语音理解能力。新版本能够同时处理多种输入模态,并完成跨模态联合推理,直接应对那些需要音画结合才能判断的复杂业务需求。

例如,在视频理解场景中,Doubao-Seed-2.0-lite可以联合分析视频画面与音频信息,精准判断视听内容的一致性,即“看到的”与“听到的”是否匹配。

它还能根据自然语言指令,在视频中精准定位特定事件的发生时间点,跨越多个时间段提取关键线索,持续追踪人物与事件发展,基于画面进行多步逻辑推理,还原事件关系与行为脉络。

在音频能力方面,新模型支持19个语种的精准语音转写,并实现中英文与其他14个语种之间的互译。

此外,它还能捕捉语音中的情绪变化、环境背景声以及音乐细节,输出更完整、更接近人类认知的语义信息。

能看懂、听懂!豆包Seed 2.0 Lite升级:首款全模态理解模型

根据公开评测集数据,Doubao-Seed-2.0-lite在语音识别、翻译等多项音频理解基准上表现优于Gemini-3.1-Pro。

值得关注的是,Doubao-Seed-2.0-lite还深度适配了OpenClaw、Hermes Agent等框架,强化了深度搜索与Skill动态调用能力。在执行任务过程中,它能够持续沉淀经验,实现“越用越聪明”的效果。

举报

  • 相关推荐
  • 多模态训练提速45% 百度智能云推出开源全模态训练框架

    多模态大模型时代,训练基础设施正面临结构性错位。传统框架基于“数据同质、结构单一、平台固定”设计,难以应对多模态异构数据、模型组件协同及跨平台算力需求。百度百舸开源的全模态训练框架LoongForge,以Megatron为核心引擎,通过统一模型抽象、系统层优化和硬件插件化设计,实现“一套代码多平台运行”。其CCT通算传并行、ChunkPipe流水线并行、自适应FP8等技术,在主流模型上实现15%-45%端到端训练加速,在DeepSeek等前沿架构上实现倍级性能提升,并在5000+卡昆仑P800集群上达到90%+线性扩展效率。

  • AI日报:千问PC端上线AI语音输入;字节发布全模态大模型Doubao-Seed-2.0-lite;谷歌更新AI搜索功能

    本期AI日报涵盖多项重要进展:千问PC端上线AI语音输入,提升办公效率;字节跳动发布全模态大模型Doubao-Seed-2.0-lite,实现视频、图像、音频与文本统一理解;腾讯联合多所高校推出开源多模态深度搜索智能体方案OpenSearch-VL;月之暗面申请“KimiClaw”商标,或涉硬件领域;Mininglamp开源Cider和Mano-P,打造本地AI工作站;OpenAI携手硬件巨头发布MRC协议,解决GPU闲置浪费;谷歌升级AI搜索功能,整合Reddit等社交观点;xAI推出Grok Imagine API质量模式,提升图像生成写实度。

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

  • 巨日禄AI×火山引擎:Seedance2.0让量产“精品”成为可能

    巨日禄AI上线一年半,非沙雕类热门AI剧市占率超70%,其Agent团队15天可完成一部80集AI漫剧,代表作《我的古董夫君,不可能这么好看》在抖音单平台播放2.5亿。通过接入火山引擎豆包视频生成模型Seedance 2.0,AI视频生成从随机“抽卡”转向“可交付叙事”的工业化生产,精品剧制作效率提升近10倍,周期从15-30天压缩至1-3天,成本降至五分之一,可用率飙至90%以上。该模型原生音画同步能力让口型、表情与台词精准对齐,实现批量精品生产。巨日禄与火山引擎构建了从剧本到成片的全栈技术架构,为AI漫短剧行业确立了工业化基线。

  • 千问给豆包上强度

    阿里要正式与字节争夺“AI电商”的心智了。 5月11日,阿里旗下的AI App千问宣布与淘宝全面打通。用户可以通过与AI对话,挑选、对比和购买商品。 此前,淘宝闪购、飞猪、高德等阿里系业务已经全面接入千问,但淘宝略有不同:用户需要点击答案中的商品卡片,跳转至淘宝下单、支付。两个平台互通后,用户可以在千问App内完成整个交易。 同时,淘宝App底部开辟“AI购物助�

  • 世上没有免费的豆包

    手握3.45亿月活用户,一直走“群众路线”的豆包,近期突然“反水”。 5月初,豆包官宣开启付费模式,一石激起千层浪。 付费订阅共分为三档:标准版68元/月、加强版200元/月、专业版500元/月。主要面向PPT生成、数据分析等复杂任务场景,基础功能仍保持免费。 据接近豆包的相关人士向光子星球透露,上述付费模式将先进行灰度测试,部分用户会提前看到会员规则。“如果

  • 2025中国企业级MaaS市场,火山引擎占比49.5%中国第一

    IDC报告显示,2025年中国企业级MaaS市场公有云大模型调用量达1944万亿Tokens,同比增长16倍。火山引擎以49.5%份额位居第一,其豆包大模型家族持续迭代,推动从文本生成向多模态理解与自动执行扩展。Agent规模化落地驱动Token消耗加速,预计2026年将再增长20倍。火山引擎已服务超150万企业,覆盖汽车、金融、教育等行业,助力超700万辆智能汽车及超5亿手机终端。

  • 满血版DeepSeek V4要来了:补上缺失的多模态关键一环

    DeepSeek V4刚发布还不到5天,光是降价就来了三轮,然而他们的后续动作还很多,马上就要推出满血DeepSeek V4,补上多模态支持。 DeepSeek负责多模态开发的研究员陈小康(xiaokang_chen)今天下午在X上预告新版DeepSeek V4,不出意外就是多模态版的DeepSeek V4了。 此前发布的DeepSeek V4不论Flash还是Pro,都还是纯文本大模型,未免有些遗憾,不是说纯文本没有用,而是多模态支持能力是当�

  • 豆包开启付费模式:AI搞订阅,行得通吗?

    ​五一假期,国内AI圈来了一记惊雷。 豆包App Store页面悄然上线付费版本服务声明:“为更好地服务专业用户,豆包将在免费版基础上,推出包含更多增值服务的付费版本。” 标准版68元/月、加强版200元/月、专业版500元/月——三档价格清晰明了,并同步给出了包年优惠。

  • 豆包终究要回归免费

    ​再聊一篇豆包收费,也是最后一篇。 从目前披露的信息看,豆包并不是要把普通用户赶进付费墙。 豆包App Store页面订阅信息显示,标准版、加强版、专业版三档月费分别为68元、200元、500元。豆包官方回应称,免费服务会继续保留,增值服务仍在测试阶段,付费功能主要指向PPT生成、数据分析、影视制作等复杂任务,免费版继续面向日常使用。 简单来说,豆包的收费模式

今日大家都在搜的词: