更小更强大！Hugging Face发布8B开源视觉语言模型Idefics2

2024-04-16 16:28 · 稿源：站长之家

划重点:
⭐️ Hugging Face 推出 Idefics2，这是一款8B 的开源视觉语言模型，拥有更好的图像处理和字符识别能力。
⭐️ Idefics2相比前代模型，参数规模更小，只有80亿的十分之一，并改进了光学字符识别（OCR）功能。
⭐️ 这款模型具有更好的图像处理能力，支持最高分辨率达到980x980像素，并且无需调整图像比例。

站长之家（ChinaZ.com）4月16日消息:Hugging Face 首次发布了其 Idefics 视觉语言模型，该模型于2023年首次亮相，采用了最初由 DeepMind 开发的技术。如今，Idefics 迎来了升级，新版本 Idefics2拥有更小的参数规模、开放许可证以及改进的光学字符识别（OCR）能力。目前，用户可以在 Hugging Face 平台上使用 Idefics2。

Idefics 的全称是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS，是一款通用的多模态模型，可以对文本和图像提示作出响应。与前身80亿参数规模的 Idefics 相比，Idefics2的规模缩小了十倍，仅有80亿，与 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相当。

除了核心功能外，Idefics2承诺提供更好的图像处理能力，支持高达980x980像素和原生长宽比的图像操作。图像无需调整大小以适应固定的正方形比例，这在传统的计算机视觉中是常见的操作。

通过整合从图像或文档中转录文本生成的数据，OCR 能力得到了增强。Hugging Face 团队还改进了 Idefics 对图表、图形和文档问题的回答能力。

，该模型的架构经过简化，摒弃了 Idefics1的门控交叉关注。Hugging Face 在一篇博客文章中指出:“图像被送入视觉编码器，然后经过学习的 Perceiver 池化和 [多层感知器] 模态投影。然后，将该池化序列与文本嵌入串联起来，以获取图像和文本的（交错的）序列。”

Hugging Face 使用了一系列公开可用的数据集，特别是 Mistral-7B-v0.1和 siglip-so400m-patch14-384，来训练 Idefics2。此外，还利用了网络文档、图像标题对、OCR 数据、渲染文本和图像到代码数据。

Idefics2的发布是 AI 繁荣持续推出的许多多模态模型之一，包括 Reka 的新 Core 模型、xAI 的 Grok-1.5V 和 Google 的 Imagen2。

产品入口：https://top.aibase.com/tool/idefics-80b

官方博客：https://huggingface.co/blog/idefics

（举报）

相关推荐

关键词：

以算力为基，优刻得与IDEA共建低空经济新格局

10月24日，粤港澳大湾区数字经济研究院低空经济院长李世鹏一行访问优刻得上海总部，与董事长季昕华、副总裁韩畅交流。双方围绕低空经济发展趋势、技术攻关及生态共建等达成多项合作意向，将共同推动低空经济产业创新与落地。此前中共二十届四中全会提出加快低空经济等新兴产业发展。双方团队将在技术产品创新、生态共建与全球化布局等领域深化合作，整合云计算与产业资源优势，促进低空经济全链条发展，把握战略机遇，引领产业健康、智能、可持续发展新阶段。

低空经济数字经济战略性新兴产业
全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
快手进军AI Coding，开发工具、模型和Maas平台齐登场

10月23日，快手StreamLake发布全新AI编程产品矩阵，以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持，KAT-Coder在权威测试中性能超越GPT-5，平台保障99.95%服务可用性。该生态旨在通过技术普惠，为企业与开发者提供颠覆性研发体验，推动AI编程普及。

AI编程快手StreamLake CodeFlicker
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

今日AI领域动态：阿里夸克启动"C计划"布局对话式AI应用，剑指字节"豆包"；Anthropic推出Claude Code网页版，支持浏览器直接编码；谷歌Veo新增视频"精确编辑"功能，提升创作效率；Fish Audio升级S1语音克隆模型，10秒即可复刻真人声音；AWS美东故障影响ChatGPT等多项服务；DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈；Adobe推出AI Foundry服务，支持企业定制品牌AI模型；Anthropic发布Claude for Life Sciences，加速生命科学研究。

AI 对话式AI 阿里巴巴
如何检查你的网站是否被大模型引用？AI排名查询工具推荐

本文探讨AI搜索时代网站流量获取新逻辑：传统SEO因Google搜索"零点击"现象失效，而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口，并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议：建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代，内容被LLM引用已成为新的流量生命线。
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

视觉中国与多家AI公司合作开发可商用视觉大模型，已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频，引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人，仅保留Meta AI。宇树科技推出仿人机器人Unitree H2，具备拟人化设计。谷歌为Gemini集成地图数据工具，可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器，但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能，可分析手机未分享照片。

AI 视觉大模型版权合规
金蝶征信“金融风控大模型” 摘得AFAC2025大奖

一家社区水果店凭借收款码的36个月交易记录，将银行贷款额度从7万元提升至10万元。这揭示了中国超3亿商户正通过二维码流水数据构建数字信用体系：使用收款码满六个月的商户获贷可能性超60%，三年后跃升至90%。此类高频实时数据正重塑风控逻辑——不看抵押、不看报表，只忠实记录每笔交易背后的经营事实。金蝶征信凭借AI与知识图谱技术，穿透至6层交易链条，构建包含4.45亿交易关系的产业互联网图谱，助力金融机构实现精准信贷匹配。其智能风控系统已推动合作机构放贷额度提升50%，标志着风控模式从“经验驱动”向“数据智能驱动”的转型。

社区水果店贷款额度收款码融资

今日大家都在搜的词：

热文

3 天
7天

更小更强大！Hugging Face发布8B开源视觉语言模型Idefics2

以算力为基，优刻得与IDEA共建低空经济新格局

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

快手进军AI Coding，开发工具、模型和Maas平台齐登场

DeepSeek开源3B OCR模型：长文本识别达97%精度

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

如何检查你的网站是否被大模型引用？AI排名查询工具推荐

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

金蝶征信“金融风控大模型” 摘得AFAC2025大奖

今日大家都在搜的词：

热文

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

一加Ace 6开启预售：售价2599元起

鸿蒙智行：全新问界M7上市36天交付破20000台

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

网信办宣布开展“整治网络直播打赏乱象”专项行动

20周年款iPhone将配自研相机并搭载自研定制LOFIC传感器

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

一加Ace 6开启预售：售价2599元起

站长商机