首页 > 热点 > 关键词  > 正文

智源研究院推出新一代多模态小模型Bunny-3B

2024-02-23 09:38 · 稿源:站长之家

站长之家(ChinaZ.com)2月23日 消息:智源研究院近期提出了一项新技术,通过数据浓缩技术获得高质量训练数据,从而提升多模态小模型的性能。

具体来说,他们将 LAION-2B 压缩成2M 核心集,得到更丰富的预训练数据,同时精选数据集进行指令微调,训练出性能强劲的小模型。这一技术路线带来了新一代多模态小模型 Bunny 系列,其中 Bunny-3B 表现出色,在多个基准上超越了其他近期热门模型,与大模型相媲美。

微信截图_20240223094001.png

Bunny 模型采用经典的 Encoder+Projector+LLM 架构,支持多种 Vision Encoders 和 LLM Backbone,提供可扩展的组合框架。在各类多模态模型评估中,Bunny 表现优异,甚至在一些指标上超越了13B 大模型。该技术的关键在于数据驱动的多模态模型研究,为多模态大模型轻量化提供了新思路和工具。

总的来说,通过数据浓缩技术获得高质量训练数据,Bunny 系列小模型在多模态任务上表现优异,将促进大模型技术的发展和普及。

  • 项目地址:https://github.com/BAAI-DCAI/Bunny

  • 模型下载地址:https://huggingface.co/BAAI/bunny-phi-2-siglip-lora

  • 在线Demo:https://bunny.dataoptim.org

举报

  • 相关推荐
  • 全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

    【新智元导读】由UCLA等机构共同组建的研究团队,全球首次在20亿参数非SFT模型上,成功实现了多模态推理的DeepSeek-R1「啊哈时刻」!就在刚刚,我们在未经监督微调的2B模型上,见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」!这一成就,再次让AI社区轰动。博客地址:https://turningpointai.notion.site/the-multimodal-aha-moment-on-2b-model开源项目:https://github.com/turningpoint-ai/VisualThinker-R1-ZeroDeepSeek-R1的独特推理能力,能成功扩展到多模态推理领域吗?UCLA等机构的研究者发现,虽然目前已经涌现出许多试图复现DeepSeek-R1的研究,然这些研究大多遭遇了这个难点:很难复现出R1所表现出的回答长度增加和思考模式。在台湾大学获得硕士学位,导师是Chih-JenLin教授。

  • AI日报:重磅!阿里新夸克升级为“AI超级框”;谷歌开源多模态模型Gemma-3;潞晨科技开源视频大模型Open-Sora 2.0

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里巴巴推出AI旗舰应用“新夸克”全面升级为“AI超级框”阿里巴巴于3月13日推出了其全新升级的AI旗舰应用——新夸克。智谱在融资方面表现优异,去年成功完成多轮融资,总额超过40亿元,吸引了多家知名投资机构。

  • 老板电器发布新一代食神大模型:做最有烟火气的AI

    今天在上海AWE展会上,老板电器发布行业首个AI烹饪大模型食神”,号称要做最有烟火气的AI,让更多人拥有健康的饮食生活,尽情享受烹饪创造的乐趣。食神”的研发结合了2TB的公域与私域知识库,以及老板电器46年沉淀的烹饪垂直领域数据,同时接入DeepSeek。食神”的一大优势是老板电器的全链路产品布局,可以控制和联动多个厨电单品,完成更复杂的任务。

  • AI日报:昆仑万维开源R1V多模态推理模型;豆包AI编程能力上线三大功能;英伟达推DGX个人AI超级计算机

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、昆仑万维开源SkyworkR1V视觉思维链推理模型昆仑万维推出全球首个开源多模态推理模型SkyworkR1V,具有38亿参数,性能接近知名闭源模型DeepSeek-R1。该功能能够快速分析过去48小时内的热点话题,用户反馈积极,显示出Grok在信息处理方面的强大实力。

  • “大音希声”极致音享 歌尔发布新一代扬声器

    2021年4月和2023年3月在深圳举办两届扬声器新技术分享会之后,2025年3月13日,歌尔在上海举办“大音希声”第三届扬声器新技术分享会,焕新升级扬声器产品,为市场提供兼具卓越音效与轻薄设计的音频解决方案,重塑听觉体验。针对折叠屏手机追求极致超薄、外放高响度低失真、兼顾隐私通话的需求,歌尔推出DPS-F和大音-F扬声器。歌尔将持续技术创新,升级制造模式,做好高品质交付,与品牌客户携手共创,为消费者提供更好的音频体验。

  • 韶音新一代开放式耳机动钛圈AWE首秀:小体积,大声场

    2025年3月20日,全球领先的开放式耳机品牌,Shokz韶音携旗下明星产品再度亮相中国家电及消费电子博览会,不仅在现场打造了声学互动空间,提供给参观人员沉浸式的开放聆听体验,一时间成为展会焦点发布了以耳夹式新形态登场的新一代开放式耳机动钛圈OpenDotsONE,通过动钛弧、不等距硅胶及低频聚合技术将开放式耳机佩戴舒适度、音质体验提升至新高度。创新动钛弧设计,重构舒适佩戴新范式耳夹式耳机爆火,已是不争的事实。在全民健身风尚和国补激励政策下,以OpenDotsONE为代表的耳夹式品类势必水涨船高,迎来指数级增长,为开放式耳机市场发展注入新活力。

  • 苹果用户无奈吐槽:已存在数年的Bug究竟何时修

    苹果iMessages应用无法正常显示AVIF格式图片的Bug已经存在数年,但却一直没有修复。AVIF图片在发送前的预览中显示正常,但发送后却只能以极小的缩略图形式呈现,且无法放大查看,这一问题不仅出现在iOS系统上,macOS用户也面临同样的困扰。用户只能通过第三方应用绕开这一限制,苹果官网的技术文档中仍声称iMessage支持主流图像格式”,但这一问题何时能够得到解决,仍是一个未知数。

  • 问界M8产品经理解析新一代智驾AD硬件:对应能力清楚了

    全新问界M8上市在即,近日,该车产品经理详细介绍了其所搭载的新一代智驾硬件系统。全新问界M8将全系标配1个192线前向激光雷达、5个4D毫米波雷达、1个后向固态激光雷达,相较于新款问界M9、尊界S800,缺少的是两个侧向固态激光雷达。需要注意的是,全新问界M8以及新款问界M9的智驾硬件均为L3自动驾驶规格,不过由于法规尚未明确出炉,所以直接将其定位于L3级自动驾驶目前并不准确。

  • 铠侠与闪迪发布下一代3D闪存技术,实现4.8Gb/s NAND接口速度

    两家公司预展第十代3D闪存技术,为性能、能效和位密度设立新标准。国际固态电路会议——铠侠株式会社与闪迪公司联合发布一项尖端3D闪存技术,凭借4.8Gb/sNAND接口速度、卓越的能效以及更高的位密度,树立了行业新标准。除非法律要求,否则闪迪不承担更新或修订这些前瞻性声明以反映新信息或事件的义务。

  • TRON重磅推出全新生态孵化计划 TRON Builders League

    据CryptoBriefing、CryptoSlate和BitcoinNews等海外知名媒体报道,TRON重磅推出全新的生态孵化计划TRONBuildersLeague,旨在为开发者提供资金支持、专业指导和发展机会,确保项目持续稳健发展。该计划倡导协作和可持续发展,致力于孵化有长期发展潜力的创新项目,全方位支持它们在TRON生态中茁壮成长。截至2025年2月,TRON公链用户总数突破2.9亿,交易笔数超过97亿,总锁仓量超过196亿美元。