首页 > 业界 > 关键词  > 正文

Hugging Face 推出开源多模态 AI 模型 IDEFIX

2023-08-23 14:46 · 稿源:站长之家

站长之家(ChinaZ.com) 8月23日 消息:人工智能创业公司 Hugging Face 最近推出了一款名为 IDEFIX 的开源多模态 AI 模型。IDEFIX 可以处理图像和文本输入,并生成连贯的文本输出。

IDEFIX 基于视觉语言模型 Flamingo 构建,Flamingo 是去年由 DeepMind 开发的一款领先的多模态 AI 模型。IDEFIX 使用了包括维基百科、公共多模态数据集和 LAION 在内的各种开放数据集进行了训练。此外,Hugging Face 还引入了一个新的多模态数据集 OBELIX,其中包含1.41亿个从互联网收集的图像文本文档。

Hugging Face,人工智能,AI

与专有模型相比,IDEFIX 在各种图像文本理解评估中的表现非常优异。它有两个版本,基本版本有90亿个参数,指导版本有800亿个参数。这标志着多模态 AI 开源模型的一个重要进步。

相比之下,OpenAI 的 ChatGPT 目前还不支持处理图像。GPT-4尽管宣称具有多模态功能,但其图像处理能力还非常有限。

除了 IDEFICS 之外,目前 Bard 和 Bing 还接受图像作为输入并创建文本。

您可以在这里尝试 IDEFICS:https://huggingface.co/spaces/HuggingFaceM4/idefics_playground

举报

  • 相关推荐
  • 荣耀年度旗舰上新,火山引擎助力“YOYO助理”多模态智慧再升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,支持图文、语音、视频输入及多样化内容输出,结合火山引擎的豆包大模型技术,提供联网问答、智能识图、创意修图、出行规划等场景服务,实现“有问必答、答则精准”的智慧体验,成为用户贴身的“万能管家”。

  • AI日报:蚂蚁开源高性能思考模型Ring-flash-2.0;通义7款模型屠榜Hugging Face;Veo3视觉能力升级

    蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0,在多项基准测试中表现优异;阿里通义7款模型登顶Hugging Face榜单,Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限,可自动完成视觉任务;特斯拉推进人形机器人量产,马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密,苹果内部测试聊天机器人Veritas优化Siri,YouTube推出AI音乐主播增强互动,LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

  • 金蝶征信“金融风控大模型” 摘得AFAC2025大奖

    一家社区水果店凭借收款码的36个月交易记录,将银行贷款额度从7万元提升至10万元。这揭示了中国超3亿商户正通过二维码流水数据构建数字信用体系:使用收款码满六个月的商户获贷可能性超60%,三年后跃升至90%。此类高频实时数据正重塑风控逻辑——不看抵押、不看报表,只忠实记录每笔交易背后的经营事实。金蝶征信凭借AI与知识图谱技术,穿透至6层交易链条,构建包含4.45亿交易关系的产业互联网图谱,助力金融机构实现精准信贷匹配。其智能风控系统已推动合作机构放贷额度提升50%,标志着风控模式从“经验驱动”向“数据智能驱动”的转型。

  • AI日报:微软发布首款自研图像生成模型 MAI-Image-1;百度世界大会时间公布;AI大牛开源nanochat教学工具

    微软发布首款自研图像生成模型MAI-Image-1,跻身LMArena前十,注重实用性与光影效果;百度世界2025大会将聚焦大模型与AI全球化战略;Meta新技术使RAG推理速度提升30倍;开源项目nanochat实现低成本构建聊天AI;谷歌NotebookLM新增动漫视频生成功能;中国农大发布神农大模型3.0助力智慧农业;腾讯启动"青云奖学金"培养AI人才;苹果FS-DFM模型长文本生成效率提升128倍;谷歌Lens整合AI图像编辑功能;港大与美团提出CodePlot-CoT方法,通过代码绘图解决数学难题,性能提升21%。

  • 百度升级文心助手AIGC创作能力:支持8种模态 一键调用多工具

    百度搜索近日宣布对文心助手进行全面升级,显著增强其AIGC多模态创作与智能任务解决能力。 目前,该平台已支持AI图片、视频、音乐、播客等8种内容形态的生成,并支持用户一键调用多种工具,应对生活、健康、教育、工作等多场景需求。 数据显示,百度搜索用户通过文心助手日均生成的AIGC内容量已突破千万。与此同时,百度还发布了行业首个开放式实时互动数字人智�

  • 没想到,音频大模型开源最彻底的,居然是小红书

    不难发现,近几个月,开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说,开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源33款、31款各类型大模型。 这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域,而音频生成占比很小。

  • 向AI构建能力,用模型产出价值,让金融优质发展

    2025年云栖大会在杭州举行,聚焦“云智一体+碳硅共生”主题,展现中国前沿科技生命力。阿里云智能集团副总裁张鹰介绍,“通义点金”平台全新升级,致力于构建金融行业垂直模型,打造具备业务洞察力的“专家级智能体”。核心突破包括:通过飞轮平台实现模型与业务双向螺旋上升,构建可观测、可评测、可迭代能力;赋予模型“自知之明”,精准调用工具并内化人类逻辑思维;建立多层次交叉验证测评体系,确保金融级严谨性。未来将持续推动通用模型与金融专业知识的有机结合,助力金融业务核心效能提升。

  • AI日报:快手KAT-Dev代码模型开源登顶;全球首款IP66防护人形机器人DR02发布;谷歌Chrome即将引入Gemini新功能

    快手开源72B代码模型KAT-Dev在SWE-Bench测试中准确率达74.6%,创国产AI编程里程碑;杭州云深处推出全球首款IP66防护全候作业机器人DR02;谷歌Chrome将集成Gemini引发隐私担忧;学者指控苹果使用盗版书籍训练AI,版权争议再起;Liquid AI发布高效稀疏激活模型LFM2-8B-A1B;苹果拟收购Prompt AI布局智能家居视觉技术;AI伴侣应用泄露4300万条用户隐私对话;西湖大学DeepScientist显著提升科研效率。

  • 一加Ace 6三款配色正式亮相 全是独家自研工艺

    一加手机将于10月27日举行新品发布会,届时,一加Ace 6、一加15双旗舰将正式发布。 今日,一加手机正式公布一加Ace 6三款配色,分别是快银、闪白、竞黑,均为自研工艺打造。 其中,快银为独家自研银紫幻彩微渐变工艺,配备Ace专属徽标,速度感拉满。 闪白则是独家自研的超低闪AG玻璃工艺,竞黑为独家自研高雾低闪砂工艺。

  • “闪电匣”荣获2025年IDEA国际设计卓越奖,智慧配送闪耀世界舞台!

    普渡机器人“闪电匣”凭借卓越设计斩获美国IDEA国际设计大奖。该产品专为酒店半户外场景打造,采用模块化舱体设计,支持2-4格灵活调整,实现毫秒级响应与一键并发配送。搭载VSLAM+3D避障技术,在复杂环境中穿梭自如。一体化简约造型搭配10.1英寸大屏,兼顾美学与实用性。这是普渡继“欢乐送2”后再度获奖,彰显中国配送机器人设计实力。

今日大家都在搜的词:

热文

  • 3 天
  • 7天