字节大模型新进展：引入视觉定位，实现细粒度多模态联合理解，已开源&demo可玩

2023-08-15 20:05 · 稿源：新智元公众号

字节大模型，BuboGPT来了。支持文本、图像、音频三种模态，做到细粒度的多模态联合理解。答哪指哪，什么讲了什么没讲，一目了然:除了有“慧眼”，还有“聪耳”。人类都注意不到的细节BuboGPT能听到:Audio-1-chime-bird-breeze，量子位，20秒前方高能!三模态联合理解，文字描述+图像

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

贝克汉姆为买LABUBU从澳门逛到上海网友：巨星也得靠运气

近日，全球知名球星大卫·贝克汉姆因追购潮玩LABUBU引发广泛关注。这位足坛传奇人物被网友目击在澳门与上海两地的泡泡玛特门店频繁现身，只为求购这款身高不足十厘米的潮流玩具。据现场目击者描述，贝克汉姆身着休闲装，在货架前专注翻找的身影与绿茵场上叱咤风云的形象形成鲜明反差。据悉，贝克汉姆为此次“跨城寻娃”行动颇费周折。他先是在澳门多家门店搜寻�

贝克汉姆潮玩LABUBU 泡泡玛特
荐AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Gaga AI发布；vivo蓝心3B端侧大模型发布

本文汇总AI领域最新动态：美图通过组织变革推动AI应用RoboNeo月活破百万；vivo发布蓝心3B端侧大模型，性能超越8B模型；Gaga AI实现静态照片生成60秒电影级视频；ChatGPT周活用户突破8亿；Figma引入Gemini模型提升设计效率；印度试点AI聊天机器人购物；Figure AI推出第三代家用机器人Figure 03；谷歌推出Gemini Enterprise自动化工作流平台。显示AI正从工具向创作者跃升，加速渗透各行业。

AI原生美图RoboNeo MAU破百万
双重高能Buff加持，东鹏特饮联名炫迈演绎能量新主张

东鹏特饮与炫迈口香糖跨界合作，推出联名产品，将能量饮料与持久清爽口感结合，满足当代人对“即时满足”的双重需求。产品既提供快速能量补充，又带来冰爆酷爽体验，适用于职场、运动、出行等多场景，实现“1+1>2”的消费体验。品牌通过街舞、电竞赛事等年轻化营销布局，深化与年轻群体情感联结，从产品功能延伸到文化认同，构建全域生态，强化品牌年轻力。

东鹏特饮炫迈口香糖联名产品
苹果预告M5芯片：新MacBook Pro首发搭载

近日，苹果公司营销主管格雷格·乔斯维亚克（Greg Joswiak）通过官方渠道发布了一则引人瞩目的预告，宣称一款强大的新品即将震撼登场。预告配图动画巧妙展现了“V”字形轮廓，这一形状与罗马数字“5”不谋而合，而配文中又暗藏五个“M”，几乎是在明示新品与苹果M5芯片紧密相关。

苹果新品 M5芯片 MacBook
火山引擎：豆包大模型日均tokens使用量突破30万亿

今日在FORCE LINK AI创新巡展武汉站上，字节跳动旗下火山引擎披露最新大模型token调用数据。火山引擎总裁谭待现场表示，豆包大模型使用量从2024年5月1200亿tokens增长253倍至今年9月的超30万亿tokens。在企业市场，据IDC9月报告，2025年上半年，中国公有云大模型调用量达536.7万亿tokens。

火山引擎豆包大模型 token调用数据
金融行业用好大模型，只有“垂直”一个解

文章探讨大模型在金融等复杂业务场景的落地挑战，指出通用模型难以满足行业对准确性、可解释性及合规性的高要求。垂直模型通过内化行业核心知识与能力，成为解决复杂业务问题的关键路径。实践显示，金融垂直模型已在营销、客服、风控等场景实现显著成效，如提升效率80%、降低风险。未来需通过数据飞轮、深度适配等技术实现模型持续迭代，构建一站式金融垂直模型生产工场。

金融大模型垂直模型 Agentic
BOE（京东方）联合vivo打造旗舰vivo X300系列多项核心技术定义屏幕新标杆

10月13日，vivo X300系列新品发布，全系搭载京东方高端柔性OLED屏，集成LTPO自适应刷新、1nit超低亮度、2160Hz高频PWM调光等领先技术，实现画质、护眼、外观三维升级。京东方与vivo深度定制屏幕，推动国产显示技术突破，重塑旗舰屏幕行业标杆，彰显中国科技企业全球引领实力。

vivo X300 BOE
华为陈浩：AI UBB三重跃迁，激发商业新增长

在2025年UBBF全球超宽带高峰论坛上，华为运营商业务总裁陈浩发表演讲，提出AI与超宽带融合的“三重跃迁”战略：深度上，从带宽销售转向体验保障，通过AI精准优化云游戏、4K直播等应用；广度上，业务从连接延伸至家庭智能、中小企业数智化服务及企业感知应用，提升ARPU；高度上，推动网络从工单驱动迈向L4级自动驾驶，实现智能运维。华为通过实践案例展示了如何助力运营商抓住AI机遇，激发新增增长。
特斯拉V14终于来了！整合Robotaxi技术马斯克：FSD有了意识

以下是FSD 14的主要功能更新 1、新增到达选项（Arrival Options）：驾驶者可选择目的地停车类型，包括停车场、街边、车道、停车库或路边停靠。 2、系统可识别警车、消防车、救护车等紧急车辆并自动避让或靠边停车。 3、实现对封路与临时绕行的实时处理。 4、增加自定义速度档位”以调整驾驶风格。新增SLOTH”模式，以更低车

特斯拉 FSD 14
IBM与Anthropic达成战略合作，为企业软件开发注入AI赋能的安全和治理

IBM与Anthropic达成战略合作，将Claude大语言模型集成至IBM软件产品及开发工具中，旨在加速企业级AI开发进程。该合作聚焦提升开发效率，在IBM全新AI集成开发环境中率先应用，支持代码生成、测试部署等全生命周期任务。内部测试显示生产力提升45%，同时确保代码质量与安全合规。双方强调将为企业提供安全可靠的AI解决方案，推动行业标准化发展。

IBM Claude大语言模型企业级AI

今日大家都在搜的词：

热文

3 天
7天

字节大模型新进展：引入视觉定位，实现细粒度多模态联合理解，已开源&demo可玩

贝克汉姆为买LABUBU从澳门逛到上海网友：巨星也得靠运气

荐AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Gaga AI发布；vivo蓝心3B端侧大模型发布

双重高能Buff加持，东鹏特饮联名炫迈演绎能量新主张

苹果预告M5芯片：新MacBook Pro首发搭载

火山引擎：豆包大模型日均tokens使用量突破30万亿

金融行业用好大模型，只有“垂直”一个解

BOE（京东方）联合vivo打造旗舰vivo X300系列多项核心技术定义屏幕新标杆

华为陈浩：AI UBB三重跃迁，激发商业新增长

特斯拉V14终于来了！整合Robotaxi技术马斯克：FSD有了意识

IBM与Anthropic达成战略合作，为企业软件开发注入AI赋能的安全和治理

今日大家都在搜的词：

热文

微信回应人去世了朋友圈会消失吗：长时间不使用账号已不再回收

AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球

小米推出短剧App围观短剧：主打无广告免费看

卢伟冰官宣REDMI K90系列下周发布：不排斥和小米竞争

小米17 Pro背屏功能获赞卢伟冰：新功能开发持续推进中

微信回应出朋友圈访客功能：可能会让用户产生焦虑重申不会推出

苹果华为OPPO将推出eSIM手机 OPPO Find X9系列已确认将支持

特斯拉Model Y L全新浅灰色高级内饰上线售价 8000元

AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；S

华为nova 14活力版、nova Flip S官宣明天发布

微信员工回应好友互删后互动清除：并非新版本特性

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

董明珠称格力向特斯拉提供服务已有近14万项专利技术

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

京东回应下场造车：不直接涉及制造三方联合推出

微信回应人去世了朋友圈会消失吗：长时间不使用账号已不再回收

库克下月满65岁苹果或迎特努斯时代：有望执掌十年以上

Windows 10即将“停服”上热搜微软建议用户升级Win 11

AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球

小米第三款车路测谍照曝光雷军测试小米汽车现身盘龙古道

站长商机