首页 > 业界 > 关键词  > Idefics2最新资讯  > 正文

更小更强大!Hugging Face发布8B开源视觉语言模型Idefics2

2024-04-16 16:28 · 稿源:站长之家

划重点:

⭐️ Hugging Face 推出 Idefics2,这是一款8B 的开源视觉语言模型,拥有更好的图像处理和字符识别能力。

⭐️ Idefics2相比前代模型,参数规模更小,只有80亿的十分之一,并改进了光学字符识别(OCR)功能。

⭐️ 这款模型具有更好的图像处理能力,支持最高分辨率达到980x980像素,并且无需调整图像比例。

站长之家(ChinaZ.com)4月16日 消息:Hugging Face 首次发布了其 Idefics 视觉语言模型,该模型于2023年首次亮相,采用了最初由 DeepMind 开发的技术。如今,Idefics 迎来了升级,新版本 Idefics2拥有更小的参数规模、开放许可证以及改进的光学字符识别(OCR)能力。目前,用户可以在 Hugging Face 平台上使用 Idefics2。

image.png

Idefics 的全称是 Image-aware Decorder Enhanced à la Flamingo with Interleaved Cross-attentionS,是一款通用的多模态模型,可以对文本和图像提示作出响应。与前身80亿参数规模的 Idefics 相比,Idefics2的规模缩小了十倍,仅有80亿,与 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相当。

除了核心功能外,Idefics2承诺提供更好的图像处理能力,支持高达980x980像素和原生长宽比的图像操作。图像无需调整大小以适应固定的正方形比例,这在传统的计算机视觉中是常见的操作。

通过整合从图像或文档中转录文本生成的数据,OCR 能力得到了增强。Hugging Face 团队还改进了 Idefics 对图表、图形和文档问题的回答能力。

image.png

,该模型的架构经过简化,摒弃了 Idefics1的门控交叉关注。Hugging Face 在一篇博客文章中指出:“图像被送入视觉编码器,然后经过学习的 Perceiver 池化和 [多层感知器] 模态投影。然后,将该池化序列与文本嵌入串联起来,以获取图像和文本的(交错的)序列。”

Hugging Face 使用了一系列公开可用的数据集,特别是 Mistral-7B-v0.1和 siglip-so400m-patch14-384,来训练 Idefics2。此外,还利用了网络文档、图像标题对、OCR 数据、渲染文本和图像到代码数据。

Idefics2的发布是 AI 繁荣持续推出的许多多模态模型之一,包括 Reka 的新 Core 模型、xAI 的 Grok-1.5V 和 Google 的 Imagen2。

产品入口:https://top.aibase.com/tool/idefics-80b

官方博客:https://huggingface.co/blog/idefics

举报

  • 相关推荐
  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • “无限量”供应Claude,就是AI IDE们的百亿补贴

    Anthropic于2025年7月28日宣布,将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用,一次使用成本甚至高达数万美元,远远超过普通订阅预期。 同样在上个月,Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制,导致大量用户抱怨“实际上并非无限”,纷纷在社群中吐槽,迫使公司CEO出面道歉、甚至给出退款补偿。 这两�

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • AI模型库哪个好?2025年主流AI模型选型指南与API成本对比推荐

    AI时代企业核心挑战已从“能否做AI”转向“如何高效集成AI能力”。AI模型库通过聚合全球主流模型,提供透明化成本与能力信息,帮助企业实现快速原型验证、精准选型和成本优化。这种基础设施降低技术门槛,使非技术背景决策者也能深度参与技术选型,加速创新迭代并降低试错成本。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • 视觉中国2025半年报:AI创意定制业务同比增长超20%

    视觉中国发布2025年半年度报告,实现营收39.9亿元,归母净利润4.38亿元。公司聚焦AI技术研发与应用,AI创意定制业务同比增长超20%,成为新增长点。推出AI辅助创作功能,上线一站式创意生成平台,服务华为、荣耀等客户。音视频业务销售额占比超32%,签约AI创作者超9000名。持续加强版权保护,当选中国版权协会理事单位。未来将深化AI技术与版权数据融合,共建数字文化新生态。

  • 百度第一!百度智能云一见领跑视觉大模型赛道

    IDC最新报告显示,百度智能云凭借"文心一言4.5"多模态大模型和"文心X1"深度思考模型,在视觉大模型领域综合实力排名第一。其智能云平台在算法模型、工程化落地、行业覆盖等方面优势显著,已服务餐饮、钢铁、电力等20多个行业,帮助数百家企业实现生产全环节的数字化管理。典型案例包括:为风电集团构建安全管控系统,巡检效率提升6-10倍;与中钢研合作金相分析模型,检测准确率达95%;助力连锁餐饮实现全国1000+门店服务质量量化管理,订单覆盖率从5%提升至95%。通过"云端大模型+边缘小模型"的协同架构,在保障精度的同时大幅降低应用成本,推动专业级视觉AI应用普及。

  • MCP模型库全面指南:AI开发者如何利用超12万个服务构建多功能智能体应用?

    MCP协议正成为AI智能体开发的关键标准,其核心价值在于标准化、安全性和模块化。当前MCP生态虽繁荣但存在资源碎片化、质量参差不齐等痛点。AIbase MCP模型库通过一站式整合全球超12万服务,提供高可靠、低延迟的技术方案,大幅降低开发复杂度。该平台为企业级应用提供从概念验证到部署的全流程支持,帮助开发者聚焦核心业务逻辑,释放MCP生态的全部潜力。

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

今日大家都在搜的词: