首页 > 业界 > 关键词  > CogVLM最新资讯  > 正文

中国研究人员推出强大开源视觉语言基础模型CogVLM

2023-11-13 16:14 · 稿源:站长之家

要点:

1. CogVLM是一款由中国研究人员介绍的强大开源视觉语言基础模型,通过深度整合语言和视觉信息,提升了跨模态任务的性能。

2. CogVLM采用了新颖的训练方法,通过可训练的视觉专家在VLM预训练期间提高语言模型的视觉理解能力,避免了深度整合方法性能不佳的问题。

3. 在14个典型的跨模态基准测试中,CogVLM-17B在图像字幕、视觉问答、图像定位等任务上表现出色,为视觉理解研究和工业应用带来了显著的积极影响。

站长之家(ChinaZ.com)11月13日 消息:近日,中国研究人员介绍了一款名为CogVLM的强大开源视觉语言基础模型。该模型在视觉和语言信息的深度整合方面取得了显著的进展,通过引入可训练的视觉专家,在VLM预训练过程中提高了语言模型的视觉理解能力。与传统的深度整合方法相比,CogVLM-17B在多个跨模态基准测试中取得了领先或次领先的性能。

image.png

论文地址:https://arxiv.org/pdf/2311.03079.pdf

在过去的视觉语言模型中,采用的浅层对齐技术,如BLIP-2,通常通过可训练的Q-Former或线性层将图像特征传递到语言模型的输入嵌入空间,但效果有限。CogVLM通过引入p-tuning和LoRA等有效的微调方法,成功提升了视觉语言模型的性能。此外,CogVLM在训练过程中避免了深度整合方法中对自然语言处理(NLP)能力的牺牲,采用了可训练的视觉专家,使得模型在保持固定参数的同时提高了参数数量。

CogVLM在14个跨模态基准测试中表现出色,包括图像字幕、视觉问答、图像定位等任务,展现了其在视觉理解研究和工业应用中的潜力。此外,研究人员还开源了CogVLM-28B-zh,以支持中英文混合的商业应用。鉴于过去大多数知名的视觉语言模型都是闭源的,CogVLM的开源将为领域研究和实际应用带来显著的积极影响。

综上所述,CogVLM作为一款强大的开源视觉语言基础模型,通过创新的训练方法和深度整合策略,成功提高了视觉理解能力,为跨模态任务的性能提升开辟了新的途径。

举报

  • 相关推荐
  • 秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

    Kimi-Audio是一款开源的通用音频基础模型,在语音识别、音频理解、音频转文本、语音对话等任务中表现优异。该模型采用集成式架构设计,包含音频分词器、音频大模型和音频去分词器三大核心组件,支持多模态输入处理。在十余项音频基准测试中,Kimi-Audio均取得领先性能,如LibriSpeech ASR测试WER仅1.28%,VocalSound测试达94.85%。模型使用1300万小时多语言音频数据进行预训练,并构建了自动处理流水线生成高质量训练数据。评估结果显示,Kimi-Audio在语音识别、音乐理解、语音情感分析等任务上全面超越同类模型,在OpenAudioBench和VoiceBench对话测试中也表现最佳。目前模型代码、检查点和评估工具包已在GitHub开源。

  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。

  • 中国智力持续发力,智象未来开源模型再获国际认可

    国内AI企业智象未来研发的开源图像生成模型HiDream-I1近日取得重要突破:该模型凭借17B参数规模,在图像真实感、细节处理及指令响应能力上超越行业标杆,多项评测指标超过GPT-4o与Flux1.1。继登顶AI基准测试平台Artificial Analysis、获Hugging Face收录后,该模型正式被谷歌技术生态体系收录,成为首个登顶该平台榜首的中国自研开源模型。其24小时内登顶的纪录,被视为中国AI技术全球竞争力的重要里程碑。谷歌的收录将推动HiDream-I1触达全球开发者,助力开源生态共建进入新发展阶段。

  • 从大模型到AI基础设施,商汤的反向求解

    大模型落地如火如荼,从上一代AI浪潮中杀出来的商汤,嗅到了这里面新的机会。在最火的具身智能赛道,这两年诞生了许多明星创业公司。这些创业公司的创始人往往拥有技术明星的光环,不少都是在学术界中某个技术领域中响当当的领头人。这些初创公司虽然在某一个单点技术上遥遥领先(大脑、小脑或者本体),但在机器人落地过程中,要突破从单一技术到整体复杂产品

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • AI日报:DeepSeek入选2025年度十大IP;快手推出AI作图工具 Poify;字节跳动开源代码模型Seed-Coder

    本文介绍了AI领域多项最新进展:1)快手推出电商AI作图工具Poify,提升商品展示效率;2)字节跳动开源8B参数代码模型Seed-Coder,展现强大编程能力;3)DeepSeek App入选2025全球十大IP;4)Claude AI新增网页搜索功能;5)苹果发布移动端视觉语言模型FastVLM;6)腾讯推出3D形状生成框架PrimitiveAnything;7)首个智能文档处理基准发布;8)谷歌Gemini2.5Pro实现6小时视频理解;9)研究显示简洁提问易致AI错误;10)首款AI智能浏览器Fellou发布;11)NVIDIA推出音频生成技术Audio-SDS;12)Kimi入驻小红书,转向内容深耕。这些创新展现了AI在电商、编程、多模态理解等领域的快速发展。

  • 森赛睿科技亮相 VisionCon 2025:视觉 AI 生态链赋能工业视觉检测快速落地,引领智造升级新范式

    雅时国际商讯主办的“VisionCon视界系统设计技术大会”在武汉光谷盛大召开,聚焦工业视觉人工智能领域,展示其在视觉AI生态构建上的战略部署与创新成果,推动“AI+制造”深度融合,为全球工业视觉行业提供可复刻的智能解决方案,突破传统视觉系统的科技壁垒,打造“云-边-端”协同架构。

  • 易鑫宣布年内推出汽车金融行业首个Agentic模型

    4 月15日,易鑫(02858.HK)在香港举行的“2 025 世界互联网大会亚太峰会”上宣布,将于年内推出汽车金融行业首个Agentic大模型。该模型通过自主决策智能体深度结合汽车金融场景需求,有望从根本上解决行业中长期存在的效率瓶颈和痛点。易鑫首席AI科学家、高级副总裁张磊现场演讲易鑫首席AI科学家、高级副总裁张磊在大会“人工智能大模型论坛”做主题演讲时,发布了这�

  • AI日报:智谱开源32B/9B系列GLM模型并启用Z.ai域名;OpenAI发布GPT-4.1系列模型;阿里魔搭上线MCP广场

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型,并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议,支持商业用途,提升了