首页 > AI头条  > 正文

​Liquid AI 推出 LFM2-VL:低延迟的超高效视觉语言模型

2025-08-21 08:48 · 来源: AIbase基地

Liquid AI 正式推出 LFM2-VL,这是一款全新的视觉语言基础模型系列,专为低延迟和设备适应性部署而优化。此次发布的 LFM2-VL 模型包括两个高效的变体:LFM2-VL-450M 和 LFM2-VL-1.6B,这标志着多模态 AI 在智能手机、笔记本电脑、可穿戴设备和嵌入式系统中的应用取得了重要进展,而不牺牲速度和准确性。

image.png

LFM2-VL 模型经过精心设计,相比现有的视觉语言模型,其 GPU 推理速度提高了两倍,同时在图像描述、视觉问答和多模态推理等任务上保持了竞争力的基准表现。450M 参数的版本专为资源受限的环境而设计,而1.6B 参数的版本则在保持轻量级的同时,提供更强大的能力,适合单 GPU 或高端移动设备使用。

在技术创新方面,LFM2-VL 采用模块化架构,结合了语言模型主干(LFM2-1.2B 或 LFM2-350M)、SigLIP2NaFlex 视觉编码器(400M 或86M 参数)和多模态投影器,使用 “像素解混” 技术动态减少图像标记数量,以实现更快的处理速度。此外,模型能够以原始分辨率处理图像,最高可达512×512像素,避免了因放大而造成的失真。较大的图像会被分割为不重叠的512×512补丁,确保细节和长宽比的保留。1.6B 版本还会编码全图的缩小缩略图,以便提供全球上下文理解。

image.png

LFM2-VL 模型的灵活推理能力使用户能够在推理时调整速度和质量的平衡,适应设备能力和应用需求。模型经过预训练、联合中训练以融合视觉和语言能力,最终在大约1000亿个多模态标记上进行了微调,确保了其在图像理解方面的出色表现。

在公共基准测试中,LFM2-VL 的表现与 InternVL3和 SmolVLM2等大型模型相媲美,但内存占用更小、处理速度更快,非常适合边缘和移动应用。两种模型均为开放权重,并可在 Hugging Face 上下载,适用于研究和商业使用。对于大型企业,则需联系 Liquid AI 以获取商业许可证。这些模型与 Hugging Face Transformers 无缝集成,并支持量化,以进一步提升在边缘硬件上的效率。

LFM2-VL 旨在帮助开发者和企业快速、准确且高效地在设备上部署多模态 AI,减少对云的依赖,推动机器人、物联网、智能摄像头和移动助手等新应用的出现。

huggingface:https://huggingface.co/collections/LiquidAI/lfm2-vl-68963bbc84a610f7638d5ffa

划重点:

🌟 LFM2-VL 模型提供超高效的 GPU 推理速度,比现有模型快两倍,适合各种设备使用。  

🖼️ 支持原始分辨率处理图像,并且能够处理大图像,确保细节不失真。  

🚀 两种模型均为开放权重,可在 Hugging Face 上下载,适合研究和商业应用。

  • 相关推荐
  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • AI工具导航网站哪个好?如何更快找到真正适合自己的高效AI工具?AIbase帮你解决难题

    AIbase导航平台致力于帮助用户快速精准地找到优质AI工具。通过严格筛选与分类,提供主流高效工具,避免信息冗余。支持多维度深度对比,包括核心功能、模型基础、价格及用户真实评价,助用户理性选择。一键直达官方入口,省去繁琐步骤,确保安全可靠。适合AI新人、效率追求者及专业人士使用,提升工作效率,降低试错成本。

  • 揭秘云创兽:硬核科技背后的高效布局与核心实力

    文章介绍了中国企业在全球化浪潮下面临的语言障碍、文化差异等出海难题,重点展示了云创兽科技公司如何通过AI技术提供一站式出海解决方案。该公司以AIGC技术为核心,开发了涵盖内容生成、语言翻译、智能分发的全流程服务,已成功帮助HKIT等企业在微短剧出海领域获得巨大流量。其AI技术能实现高质量内容生产、精准语境翻译,并通过大数据分析实现个性化推荐。在广州跨境电商交易会上,云创兽的解决方案获得广泛关注。未来公司计划拓展更多行业应用场景,助力中小企业实现全球化发展。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • AI日报:智谱视觉推理模型GLM-4.5V开源;达摩院开源三项具身智能核心技术;360智脑推出Light-IF系列模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • 国产AI视频平台最全比价:万兴天幕2.0超高性价比,可灵PixVerse瞄准高价高品质

    2025年第三季度,中国AI视频生成赛道迎来定价体系的分水岭时刻。国际巨头谷歌Veo以每秒0.75美元(约5.4元人民币)的"好莱坞级定价"筑高技术壁垒,而国内市场呈现双轨制格局:万兴科技旗下万兴天幕2.0以"0.25元/条"的颠覆性价格突入大众市场,可灵与PixVerse则以1.56-1.79元/条的价格坚守品质溢价路线。国产玩家根据技术禀赋与市场定位分化出两条路径:普惠下沉派通过错峰无限权益降低算力成本;专业精耕派依托影视级运镜模板支撑高价策略。当技术参数差距收窄至毫厘之间,这场围绕"毛票"与"元角"的定价博弈,正在重划内容生产工具的普及边界。

  • 商品多退少补太繁琐?小鹅通称重分拣功能上线,高效管理每一克!

    小鹅通推出"生鲜称重分拣"功能,解决社区团购生鲜商品重量浮动导致的退补货难题。该功能通过电子秤与标签打印机对接,实现采购-分拣-配送全流程闭环:1)供应商送货到仓;2)分拣员精准称重并自动打印含重量信息的标签;3)司机配送到店。支持三种分拣模式(按门店/路线/区域),可设置重量偏差提醒,减少操作失误。商家可在后台查看分拣记录,消费者提货时扫码即可核销重量差额。新功能既提升分拣效率,又优化客户体验,现开放免费试用。

  • 百度第一!百度智能云一见领跑视觉大模型赛道

    IDC最新报告显示,百度智能云凭借"文心一言4.5"多模态大模型和"文心X1"深度思考模型,在视觉大模型领域综合实力排名第一。其智能云平台在算法模型、工程化落地、行业覆盖等方面优势显著,已服务餐饮、钢铁、电力等20多个行业,帮助数百家企业实现生产全环节的数字化管理。典型案例包括:为风电集团构建安全管控系统,巡检效率提升6-10倍;与中钢研合作金相分析模型,检测准确率达95%;助力连锁餐饮实现全国1000+门店服务质量量化管理,订单覆盖率从5%提升至95%。通过"云端大模型+边缘小模型"的协同架构,在保障精度的同时大幅降低应用成本,推动专业级视觉AI应用普及。

  • 豆包1.5 Vision Lite 对比 GPT-5-min,谁更适合你?实测AI模型选型利器|AIBase

    文章探讨了企业选择AI大模型时面临的实际决策难题,指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台(https://model.aibase.cn/compare)通过三大核心价值解决痛点:1)聚焦业务场景而非参数堆砌,突出价格、语言支持、上下文长度等实用维度;2)透明化成本计算,标注长文本溢价规则和多模态附加费;3)一键生成对比报告。平台特别强调中文场景的特殊性(如豆包1.5在中文处理成本的优势),并揭示厂商宣传中容易忽略的隐藏成本(如GPT-5-min超5000字符的30%溢价)。典型电商客服案例显示,需综合中文理解、多模态、性价比等维度决策,最终选择取决于具体业务需求而非绝对性能排名。

今日大家都在搜的词: