首页 > 业界 > 关键词  > 火山引擎最新资讯  > 正文

字节多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA

2025-05-14 14:03 · 稿源: 机器之心公众号

5月13日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了5款模型和产品,包括豆包・视频生成模型 Seedance1.0lite、升级后的豆包1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。其中,全场最吸睛的就是豆包1.5・视觉

......

本文由站长之家合作伙伴自媒体作者“机器之心公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 爱诗科技PixVerse首发上线视频生成模型HappyHorse

    爱诗科技旗下AI视频平台PixVerse于4月28日接入HappyHorse1.0模型,支持文生视频与图生视频,并推出会员使用该模型享50%额外积分的限时活动。平台已形成V、C、R系列多层次模型体系,同时引入外部领先模型构建开放生态。HappyHorse支持1080P视频生成、多种画幅比例,用户输入文本或图片即可快速生成带音频视频,大幅降低制作门槛。PixVerse服务全球超1亿用户,覆盖177个国家,致力于推动AI视频创作普及。

  • 能看懂、听懂!豆包Seed 2.0 Lite升级:首款全模态理解模型

    火山引擎宣布Doubao-Seed-2.0-lite升级,成为豆包大模型家族首款全模态理解模型。新版支持视频、图像、音频、文本原生统一理解,并同步升级Agent、Coding与GUI能力,增强多模态推理。在视觉理解上,该模型在物理HiPhO、医疗MedXpertQA等高阶学科推理任务中大幅超越2月发布的Doubao-Seed-2.0-pro,并在BabyVision、WorldVQA等领域达SOTA水平。升级重点融入语音理解,可同时处理多种输入模态并完成跨模态联合推理,支持19语种语音转写及中英等互译,捕捉情绪、环境声等细节。该模型还深度适配OpenClaw等框架,强化深度搜索与Skill动态调用,实现越用越聪明。

  • 模型即审美:生图模型们正建起自己的“视觉方言”

    ​最近在测试各种AI生图模型的时候,我们发现了一个现象:同样一个提示词,丢给不同的模型,出来的图片风格差异大到像是出自不同摄影流派。 Image-2生成的图就像我昨天随手拍的,但Nano Banana生成的图感觉像某个家居品牌的广告大片。有些模型执着于捕捉现实的每一丝瑕疵,有些则痴迷于把日常场景变成精致的艺术品。这背后反映的不是能力差别,而是每个模型对"什么

  • 多模态训练提速45% 百度智能云推出开源全模态训练框架

    多模态大模型时代,训练基础设施正面临结构性错位。传统框架基于“数据同质、结构单一、平台固定”设计,难以应对多模态异构数据、模型组件协同及跨平台算力需求。百度百舸开源的全模态训练框架LoongForge,以Megatron为核心引擎,通过统一模型抽象、系统层优化和硬件插件化设计,实现“一套代码多平台运行”。其CCT通算传并行、ChunkPipe流水线并行、自适应FP8等技术,在主流模型上实现15%-45%端到端训练加速,在DeepSeek等前沿架构上实现倍级性能提升,并在5000+卡昆仑P800集群上达到90%+线性扩展效率。

  • AI日报:Kimi K3将于第三季度推出;英伟达发布多模态“全能模型”;Claude深度集成Adobe、Blender

    本期AI日报聚焦八大热点:月之暗面将推2.5万亿参数Kimi K3大模型,长文本处理能力突破;英伟达发布多模态模型Nemotron-3 Nano Omni,推理效率提升9倍;蚂蚁集团开源百灵Ling-2.6-flash模型;商汤推出原生多模态统一模型SenseNova U1;Claude深度集成Adobe等八大软件;字节TRAE SOLO上线语音输入;科大讯飞发布星火X2-Flash模型;ima上线知识Agent copilot,内置记忆系统。

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

  • 2025中国企业级MaaS市场,火山引擎占比49.5%中国第一

    IDC报告显示,2025年中国企业级MaaS市场公有云大模型调用量达1944万亿Tokens,同比增长16倍。火山引擎以49.5%份额位居第一,其豆包大模型家族持续迭代,推动从文本生成向多模态理解与自动执行扩展。Agent规模化落地驱动Token消耗加速,预计2026年将再增长20倍。火山引擎已服务超150万企业,覆盖汽车、金融、教育等行业,助力超700万辆智能汽车及超5亿手机终端。

  • 巨日禄AI×火山引擎:Seedance2.0让量产“精品”成为可能

    巨日禄AI上线一年半,非沙雕类热门AI剧市占率超70%,其Agent团队15天可完成一部80集AI漫剧,代表作《我的古董夫君,不可能这么好看》在抖音单平台播放2.5亿。通过接入火山引擎豆包视频生成模型Seedance 2.0,AI视频生成从随机“抽卡”转向“可交付叙事”的工业化生产,精品剧制作效率提升近10倍,周期从15-30天压缩至1-3天,成本降至五分之一,可用率飙至90%以上。该模型原生音画同步能力让口型、表情与台词精准对齐,实现批量精品生产。巨日禄与火山引擎构建了从剧本到成片的全栈技术架构,为AI漫短剧行业确立了工业化基线。

  • 满血版DeepSeek V4要来了:补上缺失的多模态关键一环

    DeepSeek V4刚发布还不到5天,光是降价就来了三轮,然而他们的后续动作还很多,马上就要推出满血DeepSeek V4,补上多模态支持。 DeepSeek负责多模态开发的研究员陈小康(xiaokang_chen)今天下午在X上预告新版DeepSeek V4,不出意外就是多模态版的DeepSeek V4了。 此前发布的DeepSeek V4不论Flash还是Pro,都还是纯文本大模型,未免有些遗憾,不是说纯文本没有用,而是多模态支持能力是当�

  • 百度文心大模型5.1正式发布

    百度正式发布了新一代基础大模型——文心大模型5.1。该模型采用了自主研发的“多维弹性预训练”技术,仅以业界同规模模型约6%的预训练成本,便达到了基础效果领先的水平,并登上LMArena搜索榜国内第一的位置。 在多项行业权威基准测试中,文心5.1在智能体、知识理解、逻辑推理以及深度搜索等核心能力上表现突出。其中,智能体能力提升显著,已超越DeepSeek-V4-Pro;创意�

今日大家都在搜的词: