多模态产业通用大模型来了！考拉悠然公开UranMM-13B技术细节

2023-11-23 14:15 · 稿源：站长之家用户

自从2022年底open AI推出ChatGPT开始，大型语言模型（LLMs， Large Language Models）的热度吸引了全世界的眼球，相关研究也取得了令人瞩目的进展。除了纯语言模型相关的技术研究以外，将视觉能力融入大语言模型的视觉语言模型（VLMs，Vision Language Models）也迅猛发展。

目前市场上主流的研究路线主要分为两种：1）原生多模态路线，模型设计从一开始就针对多模态数据进行适配，代表性的工作有微软的KOSMOS系列和Florence系列、谷歌的PALM-E系列，以及阿里的OFA系列等；2）将单模态特征作为LLMs的额外输入tokens来扩展语言模型，从而将其用于视觉语言等多种任务中，代表性的工作有Deepmind的Flamingo、Saleforce的BLIP-2、LLAVA，以及阿里的Qwen-vl等。

以上两种技术路线各有优劣，原生多模态路线的模型结构主体均为Transformer的基础堆叠，包括encoder和decoder两个模块；而视觉模块作为语言模块额外输入补充的方式多为decoder-only的模型架构、transformer LLMs模型作为中心，其他模态的模型作为外围辅助特征提取模块，用小参数量的模型就可以做到各个单模态领域已有成果的复用，同时还能保留LLMs的已有效果，通过插入多个对齐层来实现视觉信息与文本信息的对齐和联合学习，这种方式在扩展模态信息上也更灵活。用同样的方法可以支持语音、图片、视频等其他模态数据的统一训练。

01 总述

考拉悠然在视觉以及多模态领域有超过20年的技术积累，拥有20余项领先的技术突破，大模型时代到来以后，公司第一时间投入到多模态大模型的研发工作，经历了多个版本迭代，于11月15 日正式发布了悠然多模态产业通用大模型应用与服务平台。

悠然大模型（以下简称UranMM-13B）采用先进的多模态大模型架构，将视觉等模态知识作为模态数据补充到LLMs，简单有效地扩展了LLM的识图、视频理解等跨模态能力，作为一种多模态视觉语言大模型，悠然大模型具有领先的图文理解、视频理解、多模态推理等能力，并且保留了常见的自然语言任务处理能力，包括问答、信息检索、创意写作和辅助编码等能力。该模型对比BLIP2、LLaVa、QwenVL-Chat等国内外模型评测的打分中，表现出不俗的成绩。同时，悠然大模型定位为产业通用大模型，基于产业模型可以快速生成行业模型，结合行业应用发挥出更大的价值。

02 模型介绍

模型结构

整个模型主要由多模态编码器、对齐模块、大语言模型三个模块组成，结合了高质量场景化数据，通过控制可训参数进行预训练和调优。

● 多模态编码器：以视觉编码器（Image Encoder）为例，UranMM-13B使用了预训练的CLIP ViT-L/14，以提取输入图像的特征。图像被调整为336×336的统一尺寸，并被分割成14个步长的patch，最终转化为序列长度为576的tokens作为LLMs的输入。

● 对齐模块：使用了一个多层感知器MLP，用于与LLMs模型理解的知识结构匹配。

● 大语言模型：UranMM-13B 以LLaMa2为基础，具备13B参数量，特别进行了中文分词优化，增加了200B tokens具备行业属性的中英文数据进行预训练，在中文、英文、数学、代码等下游任务上，相对于Llama2-13B取得了明显的提升。

训练数据

现有的多模态公开指令集，存在质量偏低和数量有限的问题，通过公开数据训练出来的模型存在严重幻觉，无法满足实际应用需求。为此，考拉悠然研发团队采用了一系列高质量数据生成策略：

1. 基于主流的视觉和语言大模型设计规则，对公开数据进行清洗和过滤，得到第一部分高质量的种子数据，根据实际经验判断数据的有效率约30%。

2. 结合GLIP、SAM、KOSMOS等先进视觉技术，采用粗粒度信息和细粒度信息的抽取，将图像描述转化为语言形式，再通过模型构建一批高质量的指令数据。

最终用于模型训练的数据规模达到了百亿token全模态数据，和百万行业高质量指令集。

训练方法

训练方法上，考拉悠然取得了许多创新成果，团队基于DeepSpeed的训练框架进行优化，采用BF16精度，整合了FlashAttention2等技术提升训练效率。

同市场上很多VLM模型的生成过程类似，悠然大模型训练过程分为两个阶段：第一阶段使用图像－文本数据训练视觉和语言模型对齐层，使视觉模型抽取出来的图像特征能够和LLM中的文本特征空间进行对齐；第二阶段使用行业自有指令数据和开源指令数据，进一步微调模型的视觉感知以及业务理解能力，同时，为了保持模型语言能力的稳定性，还使用了ShareGPT的1M文本数据。

UranMM-13B还特别针对实际业务场景的需求，实现了预测场景的能力强化。我们使用了分组查询注意力（GQA）进行更快的推理、滑动窗口注意力（SWA）以更低的成本处理更长的序列，这些技术使模型更好地处理时间序列预测问题，实现更准确的预测。我们的模型还具备自我学习和调整的能力，能够根据新的数据和反馈持续优化预测结果。

03 评测结果

UranMM-13B在视觉标注、问答、关联提取等任务中，与近期的SOTA模型相比取得了领先的效果。

UranMM-13B与近期的SOTA模型评测对比图

04 通用能力展示

图片识别

以下为真实交通场景下，对图片多目标的类型与特征进行识别的案例。

OCR

以下案例展示了模型执行实际街道照片的中文OCR识别任务的能力。

文本写作

以下案例展示了模型基于灾害场景的图片信息的文本创作能力。

05 真实业务场景示例

基于悠然多模态产业通用大模型，经过行业数据微调构生成行业大模型后，配合模型推理训练引擎、向量数据库、多模态数据实时加工服务与Agent智能体等大模型应用工具链，可以快速构建各类行业AI应用。这一最新的应用范式，对比过往的产品解决方案，在业务效果和交付效率层面均有显著的提升，有望催生全新的行业AI原生应用，实现产业真正的智能化升级。在高空交通监管、电网巡检、半导体质量检测、烟草生产管控、智慧城市治理等交通、能源、工业、政务领域的场景中拥有广阔的应用空间与大量潜在商机。

以下以高空交通监管场景的行业应用功能点为例，展示模型在真实业务场景中的应用效果。

高空视频大模型 + 高空视频全要素感知预警平台

以川藏公路折多山当地的交通感知预警应用为例。一方面，当地部署的多个高空摄像头，24小时实时传输道路视频流。视频流在经过高空视频大模型驱动的数据处理服务加工后，形成动态增删的结构化的事件数据集；另一方面，业务方预先准备的《中华人民共和国道路交通安全法》《中华人民共和国道路交通安全法实施条例》及四川交通厅相关道路安全行政法规等行业规范，构建了完备的行业知识库。

当出现紧急情况时，行业智能体将结合视频事件与行业法规条例的信息，智能判断告警程度并输出事件分析报告，协助监管人员及时处理险情。在日常运营时段，监管人员也可以实时通过预警平台，灵活生成指定时段的交通动态图表、分析报告，为监管工作提供敏捷可靠的数据支撑。

上述案例充分展现出悠然多模态产业通用大模型，在视觉识别、信息理解、逻辑推断、知识应用等任务上的良好效果。

06 联系我们

如果您对悠然多模态产业通用大模型感兴趣，请联系我们。

参考文献：

[1]Li J， Li D， Savarese S， et al. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597， 2023.

[2]Dai W， Li J， Li D， et al. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. arXiv preprint arXiv:2305.06500， 2023.

[3]Bai J， Bai S， Yang S， et al. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966， 2023.

[4]Liu H， Li C， Li Y， et al. Improved baselines with visual instruction tuning. arXiv preprint arXiv:2310.03744， 2023.

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM，实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用，通过统一“视频流+文本指令→动作轨迹”范式，融合800万条跨任务导航数据，在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施，为规模化商业落地奠定关键基础。

机器狗导航大模型 TrackVLA
荣耀Magic 8系列上新，火山引擎助力“YOYO助理”多模态升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等年度旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，结合火山引擎与豆包大模型技术，支持联网问答、识图、修图、闲陪伴、口语练习、出行规划等场景，提供图文、语音、视频等多种输入输出形式，实现秒级响应与沉浸式交互体验，成为用户“口袋里的万能管家”。

荣耀Magic8系列 MagicOS10操作系统 YOYO助理
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东在双11期间升级直播技术，推出“立体3D技术”和“JoyAI大模型”等创新。立体3D技术实现裸眼360度商品展示，用户无需额外设备即可旋转查看产品细节；JoyAI生成虚拟偶像Aura，与真人明星跨次元互动，提升趣味性。AI工具还简化直播运营，支持智能脚本和选品。这些技术打破传统直播边界，增强沉浸感和互动效率，引领电商直播创新方向。

京东11.11 立影3D技术 JoyAI大模型
荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，支持图文、语音、视频输入及多样化内容输出，结合火山引擎的豆包大模型技术，提供联网问答、智能识图、创意修图、出行规划等场景服务，实现“有问必答、答则精准”的智慧体验，成为用户贴身的“万能管家”。

荣耀Magic8系列 MagicOS10 YOYO助理
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
AI浪潮下的产业变革与三星实践

2025年人工智能已全面融入日常生活，从实验室技术发展为驱动全球产业变革的引擎。我国生成式AI用户达5.15亿，应用场景覆盖智能搜索、工业生产及科学研究等领域。三星等科技企业通过软硬件一体化创新，构建从芯片到终端的全链条技术体系，推动AI在智能家居等场景落地。行业同时面临技术伦理、数据安全等挑战。随着第八届进博会临近，更多AI创新成果将推动技术向更智能、人性化的方向发展。

人工智能 AI应用产业变革
咖啡和空间，谁才是130亿美元星巴克中国的原点

星巴克中国的交易终于尘埃落定。昨日，星巴克咖啡公司宣布与资产管理公司博裕投资达成战略合作，双方将成立合资企业，博裕持有合资公司至多60%股权，星巴克保留40%股权，共同运营星巴克在中国市场的零售业务。合资公司的估值为40亿美元。据《36氪未来消费》的报道，40亿美元估值的合资企业，包含了门店、烘焙工厂、人员等资产。这次交易中，星巴克中国的门店价�

星巴克中国博裕投资合资企业
全球快充进入“中国标准时代”！广东省终端快充行业协会赋能产业实现国际突破

国际电联电信标准化部门（ITU-T）近日发布全球首个通用快速充电标准L.1004，由中国信通院牵头、华为等企业共同编写的《移动终端通用快速充电解决方案》被纳入其中。我国自主创新的“融合快充（UFCS）协议”作为唯一案例入选标准最佳实践部分，标志着中国快充产业实现从“制造领先”到“标准引领”的跨越。该标准将破解快充协议不兼容的行业痛点，推动充电产业摆脱“协议碎片化”困境，为全球消费电子产业绿色发展提供中国方案。

国际电信联盟快充标准融合快充

今日大家都在搜的词：

热文

3 天
7天

多模态产业通用大模型来了！考拉悠然公开UranMM-13B技术细节

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

荣耀Magic 8系列上新，火山引擎助力“YOYO助理”多模态升级

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

AI浪潮下的产业变革与三星实践

咖啡和空间，谁才是130亿美元星巴克中国的原点

全球快充进入“中国标准时代”！广东省终端快充行业协会赋能产业实现国际突破

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

文件传输工具奶牛快传宣布12月8日正式停止服务

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机