首页 > 热点 > 关键词  > 智慧科技最新资讯  > 正文

智谱开源新一代多模态大模型CogVLM2

2024-05-21 08:26 · 稿源:站长之家

站长之家(ChinaZ.com)5月21日 消息:智谱·AI最近宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。CogVLM2在OCRbench基准上性能提升了32%,在TextVQA基准上性能提升了21.9%,显示出强大的文档图像理解能力。尽管CogVLM2的模型大小为19B,但其性能接近或超过了GPT-4V的水平。

微信截图_20240521082943.png

CogVLM2的技术架构在上一代模型的基础上进行了优化,包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块,这些模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。这种深度融合策略使得视觉模态与语言模态能够更加紧密地结合,同时保持了模型在语言处理上的优势。此外,CogVLM2在推理时实际激活的参数量仅约120亿,这得益于其精心设计的多专家模块结构,显著提高了推理效率。

在模型效果方面,CogVLM2在多个多模态基准测试中取得了优异的成绩,包括TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet和MMBench等。这些测试涵盖了从文本和图像理解到复杂推理和跨学科任务的广泛能力。CogVLM2的两个模型在多个基准中取得了最先进的性能,同时在其他性能上也能达到与闭源模型相近的水平。

代码仓库:

Github:https://github.com/THUDM/CogVLM2

模型下载:

Huggingface:huggingface.co/THUDM

魔搭社区:modelscope.cn/models/ZhipuAI

始智社区:wisemodel.cn/models/ZhipuAI

Demo体验:

https://modelscope.cn/studios/ZhipuAI/Cogvlm2-llama3-chinese-chat-Demo/summary

CogVLM2技术文档:

https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf

举报

  • 相关推荐
  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • 慧科讯业AI赋能数据标签化,破局多模态数据治理难题

    文章探讨了数字化浪潮下数据标签化的重要性及其商业应用。数据标签化作为大数据分析的基础,能帮助企业实现精准营销和智能决策。然而,多模态数据处理复杂、人工标注成本高、业务理解不足等问题制约了数据价值的释放。文章提出数据标签化在构建用户画像、舆情监控、市场趋势预测等场景中的核心价值,并分析了当前面临的挑战:包括传统NLP算法不精准、大语言模型成本高且不稳定等。慧科讯业通过TDaaS服务模式,结合行业领先的数据源、NLP技术和垂直知识图谱,为企业提供高效的数据标注解决方案,显著提升数据处理效率。未来,随着AI技术发展,知识图谱驱动的TDaaS模式将重新定义数据价值变现方式。

  • 字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA

    5月13日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了5款模型和产品,包括豆包・视频生成模型 Seedance1.0lite、升级后的豆包1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。

  • 破局多模态数据治理难点,数据标注重构企业营销新基建

    文章探讨了AI数据标注行业的发展现状与未来趋势。主要内容包括:1)AI数据标注已成为企业数字化转型的核心基础设施,92.9%数据为非结构化形态;2)营销领域多模态数据融合正在重塑商业决策模式;3)慧科讯业等企业通过TDaaS服务帮助客户构建数据资产;4)数据标注服务商分为国际头部、自有生态型、垂直领域型和综合营销数字化型四类;5)未来趋势包括AI驱动的自动化标注、数据合规升级和人机协同模式创新。文章强调,高质量数据标注服务将助力企业实现从"可用"到"可信高效"的数字化转型。

  • AI日报:腾讯AI智能编程插件CodeBuddy;字节推Seed1.5-VL多模态模型;Manus母公司否认15亿美元融资传闻

    《AI日报》今日聚焦多项AI领域突破:腾讯推出CodeBuddy 3.0编程助手,深度整合微信小程序开发工具;字节跳动发布仅20B参数的Seed1.5-VL多模态模型,性能达行业领先;通义千问上线"Deep Research"智能研究系统,免费开放体验。此外,苹果推出革命性3D建模工具Matrix3D,Anthropic即将发布Claude Neptune新模型,清华与面壁智能联合推出端侧GUI智能体AgentCPM-GUI。谷歌搜索正测试"AI Mode"新功能,或将取代传统"手气不错"按钮。

  • AI日报:阿里通义千问Qwen3问鼎全球开源模型;Kimi长思考模型API发布;OpenAI发布新一代GPT-4.1模型

    【AI日报】汇总了近期AI领域重要动态:1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首,在指令遵循和推理能力上超越闭源模型;2)月之暗面推出Kimi长思考模型API,可解决复杂代码和数学问题;3)OpenAI发布GPT-4.1模型,性能提升显著;4)Google推出Gemini2.5Pro模型,提升开发者编码能力;5)联想发布"天禧超级智能体",具备多模态感知能力;6)腾讯元宝上线"对话分

  • 新一代广播音箱哪家强?权威评测给出答案!

    中国电子音响行业协会举办的"金耳朵优选/高保真音频产品评测"活动中,ITC品牌TS-M525P和T-260H两款音箱凭借卓越音质表现通过认证。评测包含客观检测和主观评价两部分,从频响范围、失真度等指标全面考核产品性能。ITC坚持"匠心理念",采用双功率放大、DDTI压缩等创新技术,实现高保真音效。近年来ITC持续加大研发投入,已推出70+款高端音频产品,并荣获广东省科技进步一等奖等荣誉。此次认证既是对产品实力的认可,也激励品牌继续深耕音频领域,为用户带来更优质的听觉体验。

  • XReal牵手谷歌,推出新一代AR眼镜 Project Aura

    虽然 Xreal 设备的外形类似太阳镜,但它们在佩戴时距离眼睛较远,因此与 Meta 和苹果正在开发的 AR 眼镜属于截然不同的设备类别……

  • 小学生持二维码买煎饼 网友:新一代粮票

    2025年5月27日,河南漯河发生了一件温馨的小事。一位小学生在放学后去煎饼摊买煎饼,但他并没有带手机。原来,孩子的家长提前为他打印了一张纸质二维码,用于支付。 煎饼摊的老板对此表示理解和支持,认为这种方式既方便又安全,孩子们不需要携带电子产品,也能顺利完成支付。这一场景引起了网友们的广泛关注和讨论。