首页 > AI头条  > 正文

vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线,多模态推理一次跑完

2025-12-02 15:17 · 来源: AIbase基地

vLLM团队发布首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变成可落地代码。新框架已上线GitHub与ReadTheDocs,开发者可立即pip安装并调用。

解耦流水线架构

- 模态编码器:ViT、Whisper等负责把视觉、语音转为中间特征

- LLM核心:继续沿用vLLM自回归引擎,承担思考、规划与对话

- 模态生成器:DiT、Stable Diffusion等扩散模型解码输出,支持图像、音频、视频同步生成

image.png

框架把三段组件视为独立微服务,可在不同GPU或节点间调度,资源按需弹性伸缩——图像生成高峰时横向扩容DiT,文本推理低谷时收缩LLM,显存利用率提升最高40%。

性能与兼容性

vLLM-Omni提供Python装饰器@omni_pipeline,三行代码即可把原有单模态模型拼装成多模态应用。官方基准显示,在8×A100集群运行10亿参数“文本+图像”模型,吞吐比传统串行方案提高2.1倍,端到端延迟下降35%。

image.png

开源与路线图

GitHub仓库已放出完整示例与Docker Compose脚本,支持PyTorch2.4+和CUDA12.2。团队透露,2026Q1将加入视频DiT与语音Codec模型,并计划提供Kubernetes CRD,方便企业在私有云一键部署。

行业观点

业内人士认为,vLLM-Omni把异构模型纳入同一数据流,有望降低多模态应用落地门槛,但不同硬件间的负载均衡与缓存一致性仍是生产环境挑战。随着框架逐渐成熟,AI初创公司可更便宜地构建“文本-图像-视频”统一平台,而不必分别维护三条推理链路。

项目地址:https://github.com/vllm-project/vllm-omni

  • 相关推荐
  • 谷歌AI眼镜官宣明年问世:搭载Gemini多模态模型

    谷歌宣布,正与三星、Gentle Monster及Warby Parker等合作伙伴共同研发两种类型的AI智能眼镜,预计新产品将于2026年面市。 谷歌硬件负责人Payne表示,公司已从过往经历中吸取教训。新款眼镜将深度集成其先进的Gemini大模型,在无需双手操作的情况下,用户可实现拍照、导航、接听电话及识别眼前物体等功能,其定位与Meta和雷朋合作推出的智能眼镜相似。 此次发布的产品线将分�

  • 可灵AI O1正式上线:号称全球首个统一多模态视频大模型

    可灵AI正式发布全新O1视频大模型,被誉为全球首个统一多模态视频大模型。该模型基于创新的多模态视觉语言交互架构,用户可在单一输入框内无缝融合文字、图像、视频等多种指令,实现跨模态内容的高效创作。其技术突破解决了传统视频生成工具功能割裂、操作复杂的痛点,并攻克了视频中主体特征漂移的行业难题,支持长达310秒的自由生成时长。目前用户可通过可灵App及官网体验。

  • 全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单

    全球首个大一统多模态视频创作工具“可灵O1”正式上线。它基于全新视频图像模型,以自然语言为语义骨架,融合视频、图片、主体等多模态描述,将生成和编辑任务整合于一个全能引擎中,为用户提供从灵感到成品的闭环创作体验。该模型打破传统单一视频生成任务边界,支持参考生视频、文生视频、首尾帧生视频、视频内容增删、风格重绘等多种任务,用户无需在多个工具间跳转即可一站式完成全流程创作。

  • 3岁萌娃不会握笔 对联写得行云流水 网友:天赋异禀

    ​一则关于广东一名3岁宝宝的视频在微博上引发广泛关注。视频中,这位年仅3岁的小宝宝,尽管连毛笔都还未完全握稳,却已经能够挥洒自如地书写草书,其字迹行云流水,令人惊叹不已。 画面中,小宝宝专注地盯

  • 699元毛绒公仔被抢空,下一个Jellycat来了?

    Jellycat门店正在加快扩张。 近一个月内,作为Jellycat国内最大的代理商之一,JOYCODE门店在北京各个商圈密集铺开,其官方数据显示,直营门店数量已经达20+。 比肩以自有IP为主的泡泡玛特,Jellycat毛利率达到近70%,其最新财报显示,2024年营收约3.33亿英镑,折合人民币约32亿元,同比大增66%,毛利润约2.26亿英镑,同比增长74%,税后盈利增长99%。 “毛绒行业还处于野蛮生长

  • 中东社交修罗场里,SoulChill的“慢哲学”

    常被认为是“娱乐荒漠”的中东,实则是全球社交娱乐应用竞争最激烈的战场之一。 自2016年起,这里见证了红利期的狂飙,也经历了随之而来的波折与淘汰——从早期的娱乐直播,到后续的语音社交、游戏社交、视频互动,不少产品已在短暂爆发后悄然退场。 在机遇与挑战并存的市场中,2019年进

  • RoboChallenge测评:π0、π0.5领先,自变量WALL-OSS-Flow零成功率引关注

    在具身智能加速发展的当下,真实场景的客观评测成为检验机器人模型能力的关键。RoboChallenge作为全球首个具身智能大规模真机评测平台,采用“任务成功率+进度评分”的双指标体系,对主流开源模型进行测试。结果显示,基于Physical Intelligence(Pi)系列构建的π0和π0.5在成功率与进度得分上整体领先其他模型,而自变量的开源大模型WALL-OSS-FLOW在31次测试中大部分成功率为零,表现明显偏弱。这与其宣称的“和PI、Google在同一水平线”形成反差,凸显了第三方客观评测的重要性。真实世界正成为检验大模型能力的最终标准,而认识到差距,正是追赶的开始。

  • 为AI Agent时代筑基,火山引擎多模态数据湖方案重塑数据处理范式

    人工智能时代全球数据量激增,预计2028年将达393ZB,其中80%为非结构化数据。火山引擎推出多模态数据湖方案,以Lance存储+Daft计算为核心,解决数据处理痛点:存储层实现高压缩比与灵活Schema,计算层通过延迟计算提升70%效率。该方案在智能驾驶等场景显著优化性能,端到端处理时间缩短70%,资源利用率提升至95%以上。平台还推出"算子广场"降低开发门槛,并推出Data Agent实现自然语言交互的数据分析,推动企业构建以数据消费为导向的治理体系。

  • 50分钟硬核科普!人民日报为海信RGB-Mini LED电视打call:这创新很中国

    文章介绍了海信RGB-Mini LED电视在显示技术上的突破。通过一系列实验,如“绝对色感大挑战”和“三棱镜分光”,深入讲解了三原色原理,揭示了其领先的液晶显示技术。该电视凭借三原色直驱架构,实现100% BT.2020色域覆盖,色彩表现超越QD-OLED和QD-Mini LED,同时较QD-OLED节能40%以上。海信自研的信芯AI画质芯片H7和RGB-Mini LED三原色自发光芯片攻克了多项技术难题,支持行业最高3×10240分区控制和108bits控色精度。在高端电视市场,RGB-Mini LED已占据近半份额,其中超九成消费者选择海信。文章强调,这不仅是一次技术升级,更是中国制造在全球显示领域争取话语权的体现,通过创新掌握定价主动权,让高端技术走进寻常百姓家。

  • 易鑫开源汽车金融业首个Agentic大模型,加速AI生态共建

    易鑫集团(02858.HK)宣布开源其自主研发的Agentic大模型YiXin-Agentic-Qwen3-14B,成为汽车金融行业首个开源此类模型的企业。该模型基于通义千问Qwen3-14B深度优化,具备卓越推理、复杂任务处理及多方协作的智能体能力,在多项性能测试中位列榜首,推理成本较行业平均水平降低三分之一。模型搭载金融领域专属知识体系与工具集,覆盖语音交互、车辆评估、风控、欺诈识别等功能,形成全链路智能支撑体系。易鑫提出“底座开放-社区共建-能力迭代-企业部署-生态繁荣”的开源共建模式,通过提供低代码私有化模板,帮助企业快速落地AI应用。此次开源与之前发布的行业首个开源推理大模型YiXin-Distill-Qwen-72B形成“垂直底座+Agentic大脑”双轮技术矩阵,填补了汽车金融领域专业开源AI工具链的空白。

今日大家都在搜的词: