首页 > 热点 > 关键词  > 智慧科技最新资讯  > 正文

智谱开源新一代多模态大模型CogVLM2

2024-05-21 08:26 · 稿源:站长之家

站长之家(ChinaZ.com)5月21日 消息:智谱·AI最近宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。CogVLM2在OCRbench基准上性能提升了32%,在TextVQA基准上性能提升了21.9%,显示出强大的文档图像理解能力。尽管CogVLM2的模型大小为19B,但其性能接近或超过了GPT-4V的水平。

微信截图_20240521082943.png

CogVLM2的技术架构在上一代模型的基础上进行了优化,包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块,这些模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。这种深度融合策略使得视觉模态与语言模态能够更加紧密地结合,同时保持了模型在语言处理上的优势。此外,CogVLM2在推理时实际激活的参数量仅约120亿,这得益于其精心设计的多专家模块结构,显著提高了推理效率。

在模型效果方面,CogVLM2在多个多模态基准测试中取得了优异的成绩,包括TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet和MMBench等。这些测试涵盖了从文本和图像理解到复杂推理和跨学科任务的广泛能力。CogVLM2的两个模型在多个基准中取得了最先进的性能,同时在其他性能上也能达到与闭源模型相近的水平。

代码仓库:

Github:https://github.com/THUDM/CogVLM2

模型下载:

Huggingface:huggingface.co/THUDM

魔搭社区:modelscope.cn/models/ZhipuAI

始智社区:wisemodel.cn/models/ZhipuAI

Demo体验:

https://modelscope.cn/studios/ZhipuAI/Cogvlm2-llama3-chinese-chat-Demo/summary

CogVLM2技术文档:

https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf

举报

  • 相关推荐
  • 海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

    海尔冰箱在人工智能领域取得新突破,主导建设的"制冷家电人工智能技术山东省工程研究中心"成为2025年山东省工程研究中心认定名单中唯一入选的冰箱品牌。该中心聚焦人工智能、物联网、大数据等技术方向,开发了全空间智慧保鲜舱冰箱等140多项行业首创产品,近三年获授权发明专利803件。海尔冰箱还推出行业首款接入DeepSeek的AI全空间保鲜冰箱,具备方言识别、降噪技术等功能,显著提升用户体验。市场数据显示,2023年1-7月海尔冰箱以47%市场份额稳居行业第一。通过AI技术赋能,海尔冰箱正引领行业向精准、智能保鲜时代跨越。

  • ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

    ISC.AI2025人工智能安全论坛在北京召开,聚焦AI安全治理与创新实践。论坛汇集顶尖专家,探讨大模型安全评估与防护、智能体安全、AI治理等前沿议题。360集团张向征指出,随着Agent技术爆发式应用,AI安全已成为产业核心焦点。专家们强调需构建AI安全防护体系,应对大模型直接访问核心系统带来的全新挑战。中国电子院彭健提出企业合规建设需关注九大要素,清华大学苏航揭示智能体安全风险远超传统AI。华为云范建军倡导端到端大模型安全防护,中国信通院杨哲超呼吁构建协同治理框架。论坛为构建安全、普惠、负责任的人工智能未来贡献智慧。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • AI日报:GPT-5正式发布;百度将推文心5.0大模型;知网发布AIKBase V2.0多模态数据管理系统

    《AI日报》精选AI领域最新动态:1)OpenAI发布GPT-5模型,具备强大多模态能力但推理任务仍有局限;2)知网推出AIKBase V2.0多模态数据管理系统;3)Ideogram新增"角色"功能实现图像风格统一;4)Cursor发布CLI版本支持终端AI编程;5)百度即将推出全新推理模型和文心5.0大模型;6)dots.ocr推出1.7B参数多语言文档解析工具;7)特斯拉解散Dojo超算团队转向英伟达合作;8)谷歌Pixel 10引入AI相�

  • 刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器

    疯狂的七月已经落下了帷幕,如果用一个词来形容国产大模型,「开源」无疑是当之无愧的高频词汇。 各大厂商你方唱罢我登场,昆仑万维、阿里、智谱、月之暗面、腾讯、阶跃星辰等众多玩家们先后开源了数十款大模型。根据 Hugging Face 发布的中国 AI 社区七月开放成果,短短一个月开源模型总数达到了惊人的33款。 进入到八月,国产大模型「上新」的势头丝毫不减,重量�

  • Razer(雷蛇)在新加坡设立AI CENTER OF EXCELLENCE,加速人工智能投资布局

    雷蛇宣布在新加坡设立全球AI卓越中心,并计划在欧洲和美国建立类似机构,推动游戏与开发者工具领域的创新。新加坡中心将招聘150名AI工程师,专注于下一代AI游戏技术研发。雷蛇还推出AI工具套件,包括Game Co-AI和QA Co-AI,帮助开发者提升游戏质量和开发效率。该战略布局正值全球游戏市场快速增长期,预计2033年AI游戏市场规模将达280亿美元。新加坡数字产业发展局表示,此举将巩固该国作为区域AI创新中心的地位。

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • 润和软件携丰富金融行业实践成果亮相2025世界人工智能大会

    润和软件在2025世界人工智能大会(WAIC2025)上展示了JettoAI+智能助手平台等系列智慧金融解决方案,包括测试智能助手、消保助手、研报助手等创新产品。作为金融科技领域领先企业,润和软件深耕AI与金融业务融合,已服务6大国有银行、12家股份制银行及超280家中小金融机构。报告显示中国金融科技市场预计将以13.3%复合增长率高速增长,2028年科技投入或突破6500亿元。润和软件�

  • 微算法科技(NASDAQ: MLGO)研发区块链可逆图像隐藏算法,提高信息隐藏完整性

    数字时代的信息安全需求催生了图像隐藏技术的持续演进。传统算法在密钥管理、抗攻击能力和认证机制方面存在固有缺陷,难以满足医疗、金融等领域的严苛安全要求。区块链技术的分布式账本特性与智能合约机制,为构建可信认证体系提供了新路径。微算法科技(NASDAQ: MLGO)研发区块链可逆图像隐藏算法(Blockchain-based Reversible Image Steganography Algorithm,BRISA),通过融合混沌加�

  • WAIC2025圆满收官,上海码极客实力呈现多模态世界模型与空间智能技术成果!

    上海码极客在WAIC2025展会上展示了四大核心产品线:1)MAGX系列空间智能本体,赋予机器感知与行动能力,其中智能卸货机器人效率提升33%;2)UU系列多模态交互智能体,包括随身AI助手UU Holo和视频分析智能体UU Video Agent;3)工业AI检测产品,如Mini LED AOI和晶圆外观检测设备;4)城市治理空间智能体"悠然智擎",实现全域感知与智能决策。公司由申恒涛院士领衔,拥有200+自主知识产权,服务500+头部客户,致力于通过空间智能和多模态世界模型技术推动产业智能化升级。

今日大家都在搜的词: