首页 > 业界 > 关键词  > 正文

魔搭社区开源多模态对齐统一框架OneLLM

2023-12-22 08:24 · 稿源:站长之家

站长之家(ChinaZ.com) 12月22日 消息:OneLLM 是一种多模态对齐的统一框架,它使用通用编码器和统一的投影模块与 LLM(Large Language Model)对齐多模态输入。OneLLM 还通过使用 modality tokens 实现了在不同模态之间的切换。

OneLLM 的核心组件包括多模态 token 的 tokenizer、通用编码器、统一的投影模块和大语言模型。

多模态 token 的 tokenizer 将输入的各种模态信号转换为 token 序列,以便进行后续处理和对齐。

微信截图_20231222082654.png

通用编码器是在 LAION(Language and AI ON)平台上训练的 CLIP VIT Large 模型,它具有强大的语义理解能力,可以对多模态输入进行编码。

统一的投影模块(UPM)是将各个模态的输入投影到 LLM 的 embedding 向量空间中,以实现多模态的对齐。UPM 由 K 个投影专家组成,每个专家包含多个 transformers 块和大量的参数。

大语言模型是 OneLLM 采用的开源 LLaMA2-7B 模型,它在大规模文本数据上进行了预训练,可以对输入进行更深入的语义理解和生成。

OneLLM 支持多种不同模态数据的理解,包括图像、音频、视频、点云、深度 / 法线图、IMU 和 fMRI 大脑活动。

实验证明,OneLLM 在视频 - 文本、音频 - 视频 - 文本、音频 - 文本等任务中优于现有方法,表现出了较强的零样本能力。

Github代码链接:

https://github.com/csuhan/OneLLM

模型权重链接:

https://modelscope.cn/models/csuhan/OneLLM-7B

模型创空间:

https://modelscope.cn/studios/csuhan/OneLLM

举报

  • 相关推荐
  • 小度发布多模态智能摄像机,AI大模型重塑家庭看护体验

    小度科技推出首款多模态智能摄像机C800,搭载800万像素4K超清摄像头,支持AI大模型技术。该产品不仅能实现高清监控,还具备智能行为识别、语音交互等功能,可自定义看护提醒。结合视觉与语音交互,支持复杂语义查询和家庭设备联动,扩展智能家居应用场景。目前产品已全网发售,年底还将推出三摄版本,持续探索AI硬件创新。

  • 既能读懂情绪,还能多模态交互!INDEMIND用空间智能重新定义陪伴机器人

    TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破,从传统2D感知升级为3D语义感知,赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合,让机器人精准构建三维地图,识别家居属性,实现主动避障与个性化服务。同时,结合低算力混合模型与情感交互功能,机器人可感知用户情绪、提供安全防护,并支持宠物看护等场景拓展,从“工具”升级为有温度的“家庭伙伴”,真正满足复杂家庭需求。

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

  • 强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

    2025年9月29日,深度求索公司发布新一代模型架构DeepSeek-V3.2,引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本,在V3.1-Terminus基础上引入稀疏注意力机制,优化长文本训练和推理效率。目前官方应用端已同步更新,API大幅降价。此次模型体积达671GB,下载需8-10小时。业内专家指出,此次快速适配表明双方早有深度技术协�

  • 开放麒麟社区:以开源之力,绘就“一带一路”数字合作新画卷

    在开源技术蓬勃发展的背景下,中国积极参与全球开源生态建设。麒麟软件牵头成立开放麒麟社区(openKylin),并将其捐赠给开放原子开源基金会,推动技术创新与国际合作。该社区原创视频《中国操作系统助力开源之光》在“一带一路”百国印记短视频大赛中获“技术创新奖”,展现其在教育、政务等领域的应用实践。目前,openKylin技术成果已进入Debian等国际开源社区,覆盖硬件、软件、AI领域,构建全栈生态。截至2025年9月,已有1300多家产业伙伴加入,形成“社区共建、生态共享、行业共赢”格局。未来,openKylin将持续提升中国在开源领域的影响力,通过技术共享赋能全球开发者。

  • 腾讯开源框架 Kuikly 再升级!率先适配 “液态玻璃”,原生体验更极致

    腾讯跨端开发框架Kuikly基于Kotlin Multiplatform技术,适配苹果iOS26系统新增的“液态玻璃”设计语言。该框架采用原生渲染架构,能快速集成系统级创新,提供简洁API支持开发者低成本适配新特性,同时确保跨平台一致性和兼容性。Kuikly已实现对液态玻璃的首阶段适配并开源,帮助业务在保持代码统一性的同时获得原生级体验。

  • CCF科技成果奖揭晓:国内开源社区斩获最高荣誉

    近日,中国计算机学会公布2025年度“CCF科技成果奖”评选结果,共有38个项目获奖。其中,“开放麒麟(openKylin)操作系统及开源社区”项目凭借在核心技术创新与产业落地中的突出贡献,荣获科技进步特等奖。该项目面向桌面应用场景,在RISC-V架构适配、移动应用兼容、智能引擎框架等方面取得突破,已在金融、通信、能源等行业规模化应用。目前,openKylin社区已吸引1300多家生态伙伴加入,构建了覆盖硬件、软件、AI等领域的全栈生态。作为全球领先的开源桌面系统根社区,该项目通过技术输出与国际协作,持续提升我国在开源领域的影响力,为全球开源生态注入中国力量。

  • 统一全球保鲜标准后,海尔又制定全球首个冰箱声音舒适度标准

    海尔冰箱连续17年全球销量第一,持续引领行业标准创新。针对用户对家居静音需求提升,海尔牵头制定全球首个《家用冰箱声音舒适度评价方法》,从分贝数值竞争升级至听觉体验优化。其首创多维声屏障科技,通过低、中、高频分段降噪,实现运行噪音低至31分贝,达“一米外听不见”的静音效果。9月26日,搭载该技术的麦浪冰箱9系新品通过德国VDE最高A级认证并正式发布。海尔联合多家权威机构填补行业标准空白,推动冰箱从“功能合格”迈向“体验优秀”,巩固全球引领地位。

  • 中国开源:正以蓬勃之姿强势崛起

    开源软件正重塑全球软件产业格局,打破技术壁垒,降低研发成本。国内企业通过开源社区协作,快速积累技术,加速产品迭代,提升全球竞争力。以麒麟软件为例,其主导的openKylin项目在RISC-V架构操作系统领域取得突破,获CCF科技奖。国产操作系统基于Linux已形成丰富生态,麒麟开发者对Linux内核贡献居全球华人首位。中国开源力量正以更自信姿态参与全球生态,为世界软件发展贡献智慧。

  • 开源鸿蒙技术大会2025圆满举办,凝聚开源力量勾勒万物智联新未来

    2025年9月27日,开源鸿蒙技术大会在长沙国际会议中心召开。大会由开源鸿蒙项目群技术指导委员会主办,华为承办,多家企业及高校协同支持。会议汇聚了行业专家、开发者及生态伙伴,展示了鸿蒙在技术创新、生态建设及人才培养方面的成果,并发布开源鸿蒙6.0版本,提升系统性能与开发效率。大会聚焦智能化发展,探讨操作系统在数字经济的核心价值,推动产业协同与生态共建。长沙市政府表示将依托鸿蒙生态,加速数字经济发展,共同构建万物智联的坚实底座。

今日大家都在搜的词: