Hugging Face 推出开源多模态 AI 模型 IDEFIX

2023-08-23 14:46 · 稿源：站长之家

站长之家(ChinaZ.com) 8月23日消息:人工智能创业公司 Hugging Face 最近推出了一款名为 IDEFIX 的开源多模态 AI 模型。IDEFIX 可以处理图像和文本输入，并生成连贯的文本输出。

IDEFIX 基于视觉语言模型 Flamingo 构建，Flamingo 是去年由 DeepMind 开发的一款领先的多模态 AI 模型。IDEFIX 使用了包括维基百科、公共多模态数据集和 LAION 在内的各种开放数据集进行了训练。此外，Hugging Face 还引入了一个新的多模态数据集 OBELIX，其中包含1.41亿个从互联网收集的图像文本文档。

Hugging Face，人工智能，AI

与专有模型相比，IDEFIX 在各种图像文本理解评估中的表现非常优异。它有两个版本，基本版本有90亿个参数，指导版本有800亿个参数。这标志着多模态 AI 开源模型的一个重要进步。

相比之下，OpenAI 的 ChatGPT 目前还不支持处理图像。GPT-4尽管宣称具有多模态功能，但其图像处理能力还非常有限。

除了 IDEFICS 之外，目前 Bard 和 Bing 还接受图像作为输入并创建文本。

您可以在这里尝试 IDEFICS:https://huggingface.co/spaces/HuggingFaceM4/idefics_playground

（举报）

相关推荐

关键词：

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，支持图文、语音、视频输入及多样化内容输出，结合火山引擎的豆包大模型技术，提供联网问答、智能识图、创意修图、出行规划等场景服务，实现“有问必答、答则精准”的智慧体验，成为用户贴身的“万能管家”。

荣耀Magic8系列 MagicOS10 YOYO助理
荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0，在多项基准测试中表现优异；阿里通义7款模型登顶Hugging Face榜单，Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限，可自动完成视觉任务；特斯拉推进人形机器人量产，马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密，苹果内部测试聊天机器人Veritas优化Siri，YouTube推出AI音乐主播增强互动，LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

AI 开源模型高性能思考模型
金蝶征信“金融风控大模型” 摘得AFAC2025大奖

一家社区水果店凭借收款码的36个月交易记录，将银行贷款额度从7万元提升至10万元。这揭示了中国超3亿商户正通过二维码流水数据构建数字信用体系：使用收款码满六个月的商户获贷可能性超60%，三年后跃升至90%。此类高频实时数据正重塑风控逻辑——不看抵押、不看报表，只忠实记录每笔交易背后的经营事实。金蝶征信凭借AI与知识图谱技术，穿透至6层交易链条，构建包含4.45亿交易关系的产业互联网图谱，助力金融机构实现精准信贷匹配。其智能风控系统已推动合作机构放贷额度提升50%，标志着风控模式从“经验驱动”向“数据智能驱动”的转型。

社区水果店贷款额度收款码融资
AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

微软发布首款自研图像生成模型MAI-Image-1，跻身LMArena前十，注重实用性与光影效果；百度世界2025大会将聚焦大模型与AI全球化战略；Meta新技术使RAG推理速度提升30倍；开源项目nanochat实现低成本构建聊天AI；谷歌NotebookLM新增动漫视频生成功能；中国农大发布神农大模型3.0助力智慧农业；腾讯启动"青云奖学金"培养AI人才；苹果FS-DFM模型长文本生成效率提升128倍；谷歌Lens整合AI图像编辑功能；港大与美团提出CodePlot-CoT方法，通过代码绘图解决数学难题，性能提升21%。

AI 图像生成微软
百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

百度搜索近日宣布对文心助手进行全面升级，显著增强其AIGC多模态创作与智能任务解决能力。目前，该平台已支持AI图片、视频、音乐、播客等8种内容形态的生成，并支持用户一键调用多种工具，应对生活、健康、教育、工作等多场景需求。数据显示，百度搜索用户通过文心助手日均生成的AIGC内容量已突破千万。与此同时，百度还发布了行业首个开放式实时互动数字人智�

百度搜索文心助手 AIGC
荐没想到，音频大模型开源最彻底的，居然是小红书

不难发现，近几个月，开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说，开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示，国内厂商在七八月接连开源33款、31款各类型大模型。这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域，而音频生成占比很小。

开源 AI社区音频生成
向AI构建能力，用模型产出价值，让金融优质发展

2025年云栖大会在杭州举行，聚焦“云智一体+碳硅共生”主题，展现中国前沿科技生命力。阿里云智能集团副总裁张鹰介绍，“通义点金”平台全新升级，致力于构建金融行业垂直模型，打造具备业务洞察力的“专家级智能体”。核心突破包括：通过飞轮平台实现模型与业务双向螺旋上升，构建可观测、可评测、可迭代能力；赋予模型“自知之明”，精准调用工具并内化人类逻辑思维；建立多层次交叉验证测评体系，确保金融级严谨性。未来将持续推动通用模型与金融专业知识的有机结合，助力金融业务核心效能提升。

云栖大会人工智能大模型
荐AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机器人DR02发布；谷歌Chrome即将引入Gemini新功能

快手开源72B代码模型KAT-Dev在SWE-Bench测试中准确率达74.6%，创国产AI编程里程碑；杭州云深处推出全球首款IP66防护全候作业机器人DR02；谷歌Chrome将集成Gemini引发隐私担忧；学者指控苹果使用盗版书籍训练AI，版权争议再起；Liquid AI发布高效稀疏激活模型LFM2-8B-A1B；苹果拟收购Prompt AI布局智能家居视觉技术；AI伴侣应用泄露4300万条用户隐私对话；西湖大学DeepScientist显著提升科研效率。

AI日报快手72B代码模型 KAT-Dev
一加Ace 6三款配色正式亮相全是独家自研工艺

一加手机将于10月27日举行新品发布会，届时，一加Ace 6、一加15双旗舰将正式发布。今日，一加手机正式公布一加Ace 6三款配色，分别是快银、闪白、竞黑，均为自研工艺打造。其中，快银为独家自研银紫幻彩微渐变工艺，配备Ace专属徽标，速度感拉满。闪白则是独家自研的超低闪AG玻璃工艺，竞黑为独家自研高雾低闪砂工艺。

一加Ace 6 新品发布会
“闪电匣”荣获2025年IDEA国际设计卓越奖，智慧配送闪耀世界舞台！

普渡机器人“闪电匣”凭借卓越设计斩获美国IDEA国际设计大奖。该产品专为酒店半户外场景打造，采用模块化舱体设计，支持2-4格灵活调整，实现毫秒级响应与一键并发配送。搭载VSLAM+3D避障技术，在复杂环境中穿梭自如。一体化简约造型搭配10.1英寸大屏，兼顾美学与实用性。这是普渡继“欢乐送2”后再度获奖，彰显中国配送机器人设计实力。

普渡机器人 IDEA国际设计大奖闪电匣

今日大家都在搜的词：

热文

3 天
7天

Hugging Face 推出开源多模态 AI 模型 IDEFIX

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

荐AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠榜Hugging Face；Veo3视觉能力升级

金蝶征信“金融风控大模型” 摘得AFAC2025大奖

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

荐没想到，音频大模型开源最彻底的，居然是小红书

向AI构建能力，用模型产出价值，让金融优质发展

荐AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机器人DR02发布；谷歌Chrome即将引入Gemini新功能

一加Ace 6三款配色正式亮相全是独家自研工艺

“闪电匣”荣获2025年IDEA国际设计卓越奖，智慧配送闪耀世界舞台！

今日大家都在搜的词：

热文

AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；S

卢伟冰官宣REDMI K90系列下周发布：不排斥和小米竞争

苹果华为OPPO将推出eSIM手机 OPPO Find X9系列已确认将支持

微信回应出朋友圈访客功能：可能会让用户产生焦虑重申不会推出

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

知乎崩了上热搜：网页端完全无法进入 App端也未能幸免

华为nova 14活力版、nova Flip S官宣明天发布

红米REDMI K90 Pro Max丹宁色亮相采用第三代科纳皮设计

苹果14英寸MacBook Pro发布：售价12999元起首发苹果M5芯片

AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮

微信员工回应好友互删后互动清除：并非新版本特性

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

董明珠称格力向特斯拉提供服务已有近14万项专利技术

微信回应人去世了朋友圈会消失吗：长时间不使用账号已不再回收

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

京东回应下场造车：不直接涉及制造三方联合推出

库克下月满65岁苹果或迎特努斯时代：有望执掌十年以上

Windows 10即将“停服”上热搜微软建议用户升级Win 11

AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球

小米推出短剧App围观短剧：主打无广告免费看

站长商机