首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

字节大模型BuboGPT已开源 demo可玩

2023-08-18 16:56 · 稿源:站长之家

站长之家(ChinaZ.com)8月18日 消息:字节推出了一种新的大模型,名为 BuboGPT,BuboGPT 是一种先进的大型语言模型(LLM),能够将文本、图像和音频等多模态输入进行整合,并具有将回复与视觉对象进行对接的独特能力。它展示了在对齐或未对齐的任意图像音频数据理解方面的出色对话能力。

image.png

项目地址:https://bubo-gpt.github.io/

通过文字描述、图像定位和声音定位,BuboGPT 可以准确判断声音来源,即使音频和图像之间没有直接关系,也可以合理描述两者之间的可能关系。

研究人员表示,相比其他多模态大模型,BuboGPT 利用文本与其他模态之间的丰富信息和明确对应关系,提供了对视觉对象及给定模态的细粒度理解。

为了实现多模态理解,BuboGPT 使用了一个共享的语义空间,并构建了一个视觉定位 pipeline,其中包括标记模块、定位模块和实体匹配模块。

通过语言作为桥梁,BuboGPT 能够将视觉对象与其他模态连接起来。研究人员还展示了 BuboGPT 在图像描述、声音来源识别等方面的能力,并开源了代码和数据集,发布了可玩的 demo。

https://huggingface.co/spaces/magicr/BuboGPT(demo)

核心功能:

- 多模态理解: BuboGPT 实现了文本、视觉和音频的联合多模态理解和对话功能。

- 视觉对接: BuboGPT 能够将文本与图像中的特定部分进行准确关联,实现细粒度的视觉对接。

- 音频理解: BuboGPT 能够准确描述音频片段中的各个声音部分,即使对人类来说一些音频片段过于短暂难以察觉。

- 对齐和非对齐理解: BuboGPT 能够处理匹配的音频 - 图像对,实现完美的对齐理解,并能对任意音频 - 图像对进行高质量的响应。

举报

  • 相关推荐
  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • 有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型

    网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行,在多项数学推理任务中性能超越更大规模的通用模型,高考数学题测试得分达98.5分。其训练成本仅2.6万美元,推理性能是DeepSeek+R1的15倍,服务成本低至每百万token0.15美元,大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�

  • 粉丝送Labubu却被水果姐打飞 演唱会大喊“No Labubu”

    近日,一段关于水果姐(Katy Perry)在演唱会上将粉丝递上的Labubu玩偶打飞”的视频在社交媒体上引发热议。 事件发生在水果姐凯蒂佩里(Katy Perry)近期在澳大利亚珀斯演唱会(PERTH NIGHT 1)的粉丝互动环节中,一名台下观众向舞台递出潮玩品牌泡泡玛特旗下IP Labubu玩偶。 水果姐直接用话筒将其打飞,并高喊No Labubu!”耐人寻味的是,Labubu玩偶被打飞至舞台角落,当事粉丝事后

  • 清华毕业礼上副校长给LABUBU拨穗:全世界学历最高的labubu来了

    近日,一则“全世界学历最高的Labubu”话题在社交媒体持续发酵,其源头可追溯至2025年清华大学毕业典礼上的一场趣味互动。 典礼现场,一名毕业生在拨穗环节中,将潮流玩偶Labubu带上台,校长或导师配合为其完成“拨穗”仪式,这一充满创意的场景被现场记录并上传至网络,迅速引发全网关注与讨论。 Labubu是泡泡玛特旗下标志性潮玩IP,凭借“丑萌”造型和限量营销策略�

  • 为什么“Labubu们”都选择阿里速卖通出海?

    最近,出海四小龙里最火的就是AliExpress速卖通了。 前几天晚上,来自全球24万年轻人冲进AliExpress速卖通直播间,蹲点抢购Labubu等多款热门IP,各种国家的语言刷爆了直播间的弹幕,把主播和工作人员都震惊了。 泡泡玛特出海的线上渠道非常集中,除了官网,就是AliExpress速卖通上的旗舰店了。所以喜欢泡泡玛特的老外们,手机里几乎都有AliExpress App。

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • 预测大模型的工业生存法则,华为博士告诉你什么才是B端最需要的大模型!

    华为开发者大会2025期间,AI专家李良基与华为团队围绕预测大模型展开深度对话。华为提出"数据原子级表征体系"理念,旨在通过统一数据编码解决跨场景迁移难题。预测大模型已在钢铁行业成功应用,温度预测准确率远超传统方案。专家指出,AGI发展的核心在于构建知识迁移能力,未来将聚焦To B场景落地,通过统一架构实现跨领域泛化应用。华为云首创Triplet Transformer

  • 为什么手机厂商还没联名Labubu?

    但凡经常混迹于网络,相信很少有人不知道Labubu已经火到何种程度。 这个外表丑萌的潮玩IP,借着盲盒+限量的东风,不仅成为时下最热门的社交符号,还成功点亮了“理财产品”属性,创造了“溢价超20倍仍一娃难求”“初代藏品级薄荷色LABUBU最终以108万的价格成交”“首开线上预售已排至8月”等一众名场面。 遥想上一个在国内引发类似风潮的IP,还是出自百亿票房电影《�

  • 年轻人氪金“塑料茅台”,Labubu养肥了谁?

    去年开始,一个名叫Labubu的新系列潮玩在北美悄然走红。 这个有着尖耳朵和“邪恶笑容”的小怪物,突然出现在各大社交平台的热搜榜上。从洛杉矶的网红咖啡馆到纽约的潮流买手店,年轻人开始热衷于分享自己与Labubu的合影,这种热潮像一阵风似的越刮越猛。 这股风潮很快跨过大洋吹到了国内。几乎是一夜之间,泡泡玛特店门口排起了长队,地铁里能看到年轻人手机壳上�

  • 108万的Labubu,才不是王宁的「上限」

    最贵的Labubu诞生了——一款显示为初代藏品薄荷色的Labubu以108万的价格完成竞拍。 这一消息瞬间引爆了社交媒体,不同声音涌入其中,使其瞬间登上了小红书、微博等多个热搜榜前列。有人认为这是“为情绪价值买单的时代”,也有人喊出“这个世界疯了”。