字节跳动推出开源多模态模型BAGEL 从图像生成到世界建模

2025-05-26 09:38 · 来源： AIbase基地

字节跳动近日正式发布其最新开源多模态基础模型——BAGEL（Big Advanced Generalized Embodied Learner），以70亿个有效参数的规模，开启多模态AI模型的新阶段。BAGEL在图像理解、生成和编辑等关键任务中表现卓越，已在多个标准评测中超越当前主流开源视觉语言模型(VLM)，如Qwen2.5-VL和InternVL-2.5。

BAGEL模型基于大规模交错多模态数据进行训练，不仅具备强大的文本转图像生成能力，其效果甚至可媲美专业级生成器Stable Diffusion3（SD3）。在图像编辑、自由形式操作、多视图合成等复杂任务中，BAGEL的定性表现显著优于现有模型，显示出其在“世界建模”等前沿方向上的潜力。

技术架构方面，BAGEL采用混合变压器-专家（MoT）结构，并使用两个独立编码器分别捕捉图像的像素级和语义级特征。其训练范式遵循“下一组标记预测”策略，支持更高效的多模态预训练与监督学习，从而在理解与生成能力上实现阶梯式增强。

为了方便开发者使用，字节跳动不仅开源了预训练模型及评估脚本，还提供了详尽的使用文档和Gradio WebUI，便于快速部署与测试。用户可通过GitHub Pages获取全部资源。

研发团队鼓励社区积极参与模型优化，欢迎通过GitHub Issue或Discord渠道反馈模型在真实场景中的表现问题。字节跳动表示，持续开放与协作将是推动BAGEL进步的关键。

作为一个集理解、生成与编辑能力于一体的多模态模型，BAGEL的推出无疑为AI研究者与开发者提供了更强大的工具，也标志着通用人工智能迈入更实用、更开放的新阶段。

地址：https://github.com/ByteDance-Seed/Bagel

相关推荐

荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

本文介绍了AI领域最新动态：1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用；2)研究显示ChatGPT能提升K12学生成绩近87%；3)谷歌视频生成工具Veo3扩展至更多地区；4)谷歌发布三款Gemma模型变体，覆盖医疗、手语翻译和海豚语言研究；5)VideoTutor实现一句话生成定制教学视频；6)字节跳动开源多模态模型BAGEL；7)Rork支持无代码开发iOS/Android应用；8)AingDesk降低AI助手开发门槛；9)Claude4登陆亚马逊Bedrock平台；10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

人工智能移动办公 AI应用
荐字节最强多模态模型登陆火山引擎！Seed1.5-VL靠20B激活参数狂揽38项SOTA

5月13日，火山引擎在上海搞了场 FORCE LINK AI 创新巡展，一股脑发布了5款模型和产品，包括豆包・视频生成模型 Seedance1.0lite、升级后的豆包1.5・视觉深度思考模型，以及新版豆包・音乐模型。同时，Data Agent 和 Trae 等产品也有了新进展。

火山引擎创新巡展多模态理解
荐多模态和Agent成为大厂AI的新赛点

这是《窄播Weekly》的第52期，本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景，多模态能力和代理执行成为两个焦点。大模型落地C端场景的核心，就是让大模型的能力越来越接近人。沿着这个主旋律，可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现，需要给到大模型多

AI竞争策略多模态能力大模型应用
字节跳动警告合作方对腐败贿赂员工零容忍

字节跳动发布端午合规提示，明确对腐败贿赂行为零容忍。文件规定：合作方若向员工行贿或谋取不当利益，将被永久列入黑名单；节日期间禁止赠送粽子礼盒、现金红包等礼品；不得提供高档餐饮娱乐招待。2024年公司已辞退353名违规员工，其中39人移送司法机关。此举彰显字节跳动反腐决心，旨在维护廉洁透明的商业合作环境。（140字）

字节跳动反腐倡廉商业合规
荐AI日报：腾讯AI智能编程插件CodeBuddy；字节推Seed1.5-VL多模态模型；Manus母公司否认15亿美元融资传闻

《AI日报》今日聚焦多项AI领域突破：腾讯推出CodeBuddy 3.0编程助手，深度整合微信小程序开发工具；字节跳动发布仅20B参数的Seed1.5-VL多模态模型，性能达行业领先；通义千问上线"Deep Research"智能研究系统，免费开放体验。此外，苹果推出革命性3D建模工具Matrix3D，Anthropic即将发布Claude Neptune新模型，清华与面壁智能联合推出端侧GUI智能体AgentCPM-GUI。谷歌搜索正测试"AI Mode"新功能，或将取代传统"手气不错"按钮。

AI编程助手 CodeBuddy 腾讯AI产品
荐AI日报：DeepSeek入选2025年度十大IP；快手推出AI作图工具 Poify；字节跳动开源代码模型Seed-Coder

本文介绍了AI领域多项最新进展：1）快手推出电商AI作图工具Poify，提升商品展示效率；2）字节跳动开源8B参数代码模型Seed-Coder，展现强大编程能力；3）DeepSeek App入选2025全球十大IP；4）Claude AI新增网页搜索功能；5）苹果发布移动端视觉语言模型FastVLM；6）腾讯推出3D形状生成框架PrimitiveAnything；7）首个智能文档处理基准发布；8）谷歌Gemini2.5Pro实现6小时视频理解；9）研究显示简洁提问易致AI错误；10）首款AI智能浏览器Fellou发布；11）NVIDIA推出音频生成技术Audio-SDS；12）Kimi入驻小红书，转向内容深耕。这些创新展现了AI在电商、编程、多模态理解等领域的快速发展。

AI作图工具电商市场 AI产品应用
荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

【AI日报】今日AI领域重要动态：1)阿里云推出通义灵码AI IDE，集成千问3模型，显著提升编程效率；2)小米开源多模态大模型MiMo-VL-7B，性能超越更大规模闭源模型；3)黑森林实验室发布FLUX.1Kontext图像生成模型，支持文本和参考图像多次编辑；4)Midjourney V7渲染速度提升40%，新增用户投票功能；5)DeepSeek R1-0528大模型在AGI领域取得突破，性能超越xAI等公司；6)Hugging Face进军机器人市场，推出开源人形机器人HopeJR；7)字节跳动火山方舟接入DeepSeek最新大模型；8)Anthropic开源"电路追踪"工具，揭示大模型决策过程；9)阿里巴巴开源自主搜索AI智能体WebAgent；10)Hume发布低延迟语音语言模型EVI3；11)Manus Slides支持一键生成专业幻灯片；12)Runway Gen-4 References支持手机照片艺术化处理。

人工智能 AI开发工具编程效率
慧科讯业AI赋能数据标签化，破局多模态数据治理难题

文章探讨了数字化浪潮下数据标签化的重要性及其商业应用。数据标签化作为大数据分析的基础，能帮助企业实现精准营销和智能决策。然而，多模态数据处理复杂、人工标注成本高、业务理解不足等问题制约了数据价值的释放。文章提出数据标签化在构建用户画像、舆情监控、市场趋势预测等场景中的核心价值，并分析了当前面临的挑战：包括传统NLP算法不精准、大语言模型成本高且不稳定等。慧科讯业通过TDaaS服务模式，结合行业领先的数据源、NLP技术和垂直知识图谱，为企业提供高效的数据标注解决方案，显著提升数据处理效率。未来，随着AI技术发展，知识图谱驱动的TDaaS模式将重新定义数据价值变现方式。

数据标签化数字化转型人工智能
破局多模态数据治理难点，数据标注重构企业营销新基建

文章探讨了AI数据标注行业的发展现状与未来趋势。主要内容包括：1）AI数据标注已成为企业数字化转型的核心基础设施，92.9%数据为非结构化形态；2）营销领域多模态数据融合正在重塑商业决策模式；3）慧科讯业等企业通过TDaaS服务帮助客户构建数据资产；4）数据标注服务商分为国际头部、自有生态型、垂直领域型和综合营销数字化型四类；5）未来趋势包括AI驱动的自动化标注、数据合规升级和人机协同模式创新。文章强调，高质量数据标注服务将助力企业实现从"可用"到"可信高效"的数字化转型。

Scale AI 数据标注行业
仅用三张图像即可生成 3D 场景，苹果新 AI 模型“很惊人”

只需三张输入图像，Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建，这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

苹果AI模型 Matrix3D 苹果机器学习

今日大家都在搜的词：

热文

3 天
7天

字节跳动推出开源多模态模型BAGEL 从图像生成到世界建模

荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

荐字节最强多模态模型登陆火山引擎！Seed1.5-VL靠20B激活参数狂揽38项SOTA

荐多模态和Agent成为大厂AI的新赛点

字节跳动警告合作方对腐败贿赂员工零容忍

荐AI日报：腾讯AI智能编程插件CodeBuddy；字节推Seed1.5-VL多模态模型；Manus母公司否认15亿美元融资传闻

荐AI日报：DeepSeek入选2025年度十大IP；快手推出AI作图工具 Poify；字节跳动开源代码模型Seed-Coder

荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

慧科讯业AI赋能数据标签化，破局多模态数据治理难题

破局多模态数据治理难点，数据标注重构企业营销新基建

仅用三张图像即可生成 3D 场景，苹果新 AI 模型“很惊人”

今日大家都在搜的词：

热文

DeepSeek更新R1推理AI模型，已发布Hugging Face

Opera发布“无所不能”的Neon AI代理浏览器，离线也能写代码

扎克伯格：“Meta AI 月活用户突破 10 亿……但仍远远不够”

再生狗皮肤初创公司说：生物打印器官还有“ 10 到 15 年”

三星Galaxy VS 苹果iPhone：谁家用户谁赚得更多？

多邻国ceo打脸，放弃“AI员工”战略，称：仍需人类员工！

苹果的下一步计划：利用开发者社区，打造AI应用！

OpenAI成立韩国法人，并计划在首尔设立办公室

DeepSeek更新R1推理AI模型，已发布Hugging Face

在“杀死”iPhone之前，奥特曼和艾维将先革了AI设备的命？

Opera发布“无所不能”的Neon AI代理浏览器，离线也能写代码

扎克伯格：“Meta AI 月活用户突破 10 亿……但仍远远不够”

谷歌研究表明：量子计算机可比预期更快破解 RSA 加密

特朗普威胁苹果：不在美国生产iPhone，就征收25%关税

特朗普对苹果的施压，可能会导致三星手机在美大幅涨价

站长商机