首页 > AI头条  > 正文

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

2024-07-17 13:47 · 来源: AIbase基地

近期,多模态大模型的研究和应用取得了显著进展。国外公司如OpenAI、Google、Microsoft等推出了一系列先进的模型,国内也有智谱AI、阶跃星辰等机构在该领域取得了突破。这些模型通常依赖视觉编码器来提取视觉特征并与大语言模型结合,但存在训练分离导致的视觉归纳偏置问题,限制了多模态大模型的部署效率和性能。

为解决这些问题,智源研究院联合大连理工大学、北京大学等高校推出了新一代无编码器的视觉语言模型EVE。EVE通过精细化训练策略和额外的视觉监督,将视觉-语言表征、对齐和推理整合到统一的纯解码器架构中。使用公开数据,EVE在多个视觉-语言基准测试中表现优异,接近甚至优于基于编码器的主流多模态方法。

微信截图_20240717134628.png

EVE的主要特点包括:

  • 原生视觉语言模型:去除视觉编码器,处理任意图像长宽比,显著优于同类型Fuyu-8B模型。

  • 数据和训练代价少:预训练使用OpenImages、SAM和LAION等公开数据,训练时间较短。

  • 透明和高效的探索:为纯解码器的原生多模态架构提供了高效、透明的发展路径。

模型结构:

  • Patch Embedding Layer:通过单层卷积层和平均池化层获取图像2D特征图,增强局部特征和全局信息。

  • Patch Aligning Layer:整合多层网络视觉特征,实现与视觉编码器输出的细粒度对齐。

训练策略:

  • 大语言模型引导的预训练阶段:建立视觉和语言之间的初步联系。

  • 生成式预训练阶段:提高模型对视觉-语言内容的理解能力。

  • 监督式的微调阶段:规范模型遵循语言指令和学习对话模式的能力。

定量分析:EVE在多个视觉语言基准测试中表现优异,与多种主流的基于编码器的视觉语言模型相当。尽管在准确响应特定指令方面存在挑战,但通过高效的训练策略,EVE实现了与带编码器基础的视觉语言模型相当的性能。

 EVE展示了无编码器原生视觉语言模型的潜力,未来可能通过进一步的性能提升、无编码器架构的优化和原生多模态的构建,继续推动多模态模型的发展。

论文地址:  https://arxiv.org/abs/2406.11832

项目代码:  https://github.com/baaivision/EVE

模型地址:  https://huggingface.co/BAAI/EVE-7B-HD-v1.0

  • 相关推荐
  • 武大、蚂蚁集团发布新一代遥感大模型:12边型战士

    近日,武汉大学与蚂蚁集团联合发布了新一代语义增强遥感大模型SkySense,堪称12边型战士。 其相关研究成果在国际知名学术期刊《自然机器智能》上在线发表。 当前,遥感基础大模型在复杂动态地球观测场景应用中面临挑战,如多模态遥感影像数据融合性能欠佳、下游任务微调依赖大量数据、对遥感语义信息挖掘不足等。 为攻克这些难题,研究团队基于前期多模态遥感大�

  • 新一代智能唱聊热水器!Leader统帅小音浪F7开启预售

    Leader统帅小音浪F7智能热水器正式开启预售,主打浴室"唱聊伴侣"功能。这款产品创新性地将热水器与智能音箱结合,支持语音点歌、聊天互动,还能识别方言指令自动调节水温。780L大容量设计满足3-5人连续使用90分钟,双胆扁桶造型比传统机型薄30%,适合小户型。独创"小白瓶"净水装置可过滤杂质余氯,搭配7色氛围灯和表情互动功能,让沐浴体验充满趣味。调研显示55%年轻人洗澡时有听歌需求,F7正是为解决这一痛点而生,让浴室变身Livehouse,为日常生活增添治愈时刻。

  • AI日报:GPT-5正式发布;百度将推文心5.0大模型;知网发布AIKBase V2.0多模态数据管理系统

    《AI日报》精选AI领域最新动态:1)OpenAI发布GPT-5模型,具备强大多模态能力但推理任务仍有局限;2)知网推出AIKBase V2.0多模态数据管理系统;3)Ideogram新增"角色"功能实现图像风格统一;4)Cursor发布CLI版本支持终端AI编程;5)百度即将推出全新推理模型和文心5.0大模型;6)dots.ocr推出1.7B参数多语言文档解析工具;7)特斯拉解散Dojo超算团队转向英伟达合作;8)谷歌Pixel 10引入AI相�

  • 百度第一!百度智能云一见领跑视觉大模型赛道

    IDC最新报告显示,百度智能云凭借"文心一言4.5"多模态大模型和"文心X1"深度思考模型,在视觉大模型领域综合实力排名第一。其智能云平台在算法模型、工程化落地、行业覆盖等方面优势显著,已服务餐饮、钢铁、电力等20多个行业,帮助数百家企业实现生产全环节的数字化管理。典型案例包括:为风电集团构建安全管控系统,巡检效率提升6-10倍;与中钢研合作金相分析模型,检测准确率达95%;助力连锁餐饮实现全国1000+门店服务质量量化管理,订单覆盖率从5%提升至95%。通过"云端大模型+边缘小模型"的协同架构,在保障精度的同时大幅降低应用成本,推动专业级视觉AI应用普及。

  • 忆联新一代eMMC 5.1产品:容量倍增、功耗降低18%,以卓越TCO重塑智能终端存储体验

    忆联新一代eMMC5.1产品针对智能终端高清化、强交互性需求,推出256GB大容量版本,性能功耗双升级。关键优势:1)顺序读写速度达330/290MB/s,随机读写33K/30K IOPS;2)功耗降低18%,优化电源管理;3)采用3D NAND和动态SLC缓存技术,写入寿命提升50%至200TBW;4)创新分级睡眠机制,非活跃状态自动切换至微安级模式。通过"大容量+高能效+长寿命"三角模型,显著降低用户TCO,助力智能设备厂商构建可持续发展生态。

  • 共寻破局之道,YOUMAGIC舒立缇全新一代高能单极射频武汉区域会成功举办

    8月14日,YOUMAGIC舒立缇新一代高能单极射频区域会在武汉成功举办。活动以"高能新生 探见未来"为主题,汇聚技术研发、临床实践、商业运营等领域专家,探讨抗衰领域创新技术与商业破局路径。YOUMAGIC舒立缇采用创新射频技术,通过100ms闪脉冲技术实现精准温控,临床数据显示3个月美容效果有效率达100%。活动还分享了爆款打造方法论和全平台营销策略,为从业者提供全链路增长指引。未来品牌将通过区域标杆建设、联合推广计划等赋能机构增长,推动行业高质量发展。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • AI日报:智谱视觉推理模型GLM-4.5V开源;达摩院开源三项具身智能核心技术;360智脑推出Light-IF系列模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探

  • 7月日均活跃过2000万,《三角洲行动》成为新一代流行射击游戏

    腾讯《三角洲行动》7月平均DAU突破2000万,位居射击游戏品类前列。游戏通过持续创新玩法实现高速增长,90天内DAU增长66%。新版本引入"潮汐监狱"地图、新干员"疾风"等丰富内容,并优化PC端体验。游戏采用"四全"策略(全球化发行、全终端上线、全平台互通、全自研IP),11个月内推出5个大版本,保持高频更新节奏。同时通过吴彦祖代言、倪大红联动等营销活动破圈,在抖音、B站等平台引发热议,成为新一代现象级FPS游戏。其成功验证了高品质内容与大众化体验结合的可能性,为行业提供了新思路。

  • WAIC2025圆满收官,上海码极客实力呈现多模态世界模型与空间智能技术成果!

    上海码极客在WAIC2025展会上展示了四大核心产品线:1)MAGX系列空间智能本体,赋予机器感知与行动能力,其中智能卸货机器人效率提升33%;2)UU系列多模态交互智能体,包括随身AI助手UU Holo和视频分析智能体UU Video Agent;3)工业AI检测产品,如Mini LED AOI和晶圆外观检测设备;4)城市治理空间智能体"悠然智擎",实现全域感知与智能决策。公司由申恒涛院士领衔,拥有200+自主知识产权,服务500+头部客户,致力于通过空间智能和多模态世界模型技术推动产业智能化升级。

今日大家都在搜的词: