阿里通义宣布开源R1-Omni模型可提升多模态情感识别能力

2025-03-12 08:21 · 来源： AIbase基地

3月11日，通义实验室团队宣布开源R1-Omni模型，为全模态模型的发展带来了新的突破。该模型结合了强化学习与可验证奖励（RLVR）方法，专注于提升多模态情感识别任务中的推理能力和泛化性能。

R1-Omni的训练分为两个阶段。在冷启动阶段，团队使用包含580条视频数据的组合数据集进行微调，这些数据来自Explainable Multimodal Emotion Reasoning（EMER）数据集和HumanOmni数据集。这一阶段旨在为模型奠定基础推理能力，确保其在进入RLVR阶段前具备一定的多模态情感识别能力，从而保障后续训练的平稳性、效率与稳定性。

微信截图_20250312082133.png

随后，在RLVR阶段，模型通过强化学习与可验证奖励机制进一步优化。该阶段的关键在于策略模型和奖励函数。策略模型处理视频帧和音频流组成的多模态输入数据，生成带有详细推理过程的候选响应，展示模型如何整合视觉和听觉信息以得出预测。奖励函数则受DeepSeek R1启发，分为精确率奖励和格式奖励两部分，共同形成最终奖励，既鼓励模型生成正确预测，又保证输出结构化且符合预设格式。

实验结果显示，R1-Omni在同分布测试集DFEW和MAFW上，相较于原始基线模型平均提升超过35%，相较于有监督微调（SFT）模型在未加权平均召回率(UAR)上提升高达10%以上。在不同分布测试集RAVDESS上，其加权平均召回率(WAR)和UAR均提升超过13%，展现出卓越的泛化能力。此外，R1-Omni还具有显著的透明性优势，通过RLVR方法，音频和视频信息在模型中的作用变得更加清晰可见，能够明确展示各模态信息对特定情绪判断的关键作用，为理解模型决策过程和未来研究提供了重要参考。

论文:

https://arxiv.org/abs/2503.05379

Github:

https://github.com/HumanMLLM/R1-Omni

模型:

https://www.modelscope.cn/models/iic/R1-Omni-0.5B

相关推荐

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，支持图文、语音、视频输入及多样化内容输出，结合火山引擎的豆包大模型技术，提供联网问答、智能识图、创意修图、出行规划等场景服务，实现“有问必答、答则精准”的智慧体验，成为用户贴身的“万能管家”。

荣耀Magic8系列 MagicOS10 YOYO助理
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

百度搜索近日宣布对文心助手进行全面升级，显著增强其AIGC多模态创作与智能任务解决能力。目前，该平台已支持AI图片、视频、音乐、播客等8种内容形态的生成，并支持用户一键调用多种工具，应对生活、健康、教育、工作等多场景需求。数据显示，百度搜索用户通过文心助手日均生成的AIGC内容量已突破千万。与此同时，百度还发布了行业首个开放式实时互动数字人智�

百度搜索文心助手 AIGC
专注供应链单据识别 | 运小沓AI单证平台，单据识别提效500%

供应链数字化进程中，单证处理效率低下是行业痛点。海运/空运托书、报关草单等核心单证格式复杂、人工录入易错，通用识别工具难以适配。运小藄AI单证平台通过自研大模型实现"无需定制、一键识别、精准高效"的智能处理，覆盖全场景单证类型，支持无缝对接业务系统。实际应用显示：托书录入效率提升500%，错误率降至0.1%以下；报关草单制单效率提升300%，有效解决"订舱等不起、报关错不起、定制用不起"三大难题。

供应链数字化转型单证处理效率瓶颈
向AI构建能力，用模型产出价值，让金融优质发展

2025年云栖大会在杭州举行，聚焦“云智一体+碳硅共生”主题，展现中国前沿科技生命力。阿里云智能集团副总裁张鹰介绍，“通义点金”平台全新升级，致力于构建金融行业垂直模型，打造具备业务洞察力的“专家级智能体”。核心突破包括：通过飞轮平台实现模型与业务双向螺旋上升，构建可观测、可评测、可迭代能力；赋予模型“自知之明”，精准调用工具并内化人类逻辑思维；建立多层次交叉验证测评体系，确保金融级严谨性。未来将持续推动通用模型与金融专业知识的有机结合，助力金融业务核心效能提升。

云栖大会人工智能大模型
豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

10月16日，火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构，具备深度语义理解能力，实现从文本朗读到情感表达的进化。对话式合成支持多轮交互，声音复刻仅需5秒即可还原音色。针对教育场景优化，复杂公式符号朗读准确率达90%，覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线，为OPPO、Keep等客户提供多场景语音服务。

语音合成声音复刻语义理解
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
32路监控+4K影库！海康R1全能NAS：你的私人数据管家

海康S1全能NAS以高性能硬件配置重新定义NAS标准：搭载英特尔N100处理器，性能较前代提升40%；支持32路监控存储与4K影库构建；具备双M.2插槽和双2.5G网口，提供高速存储与5Gbps聚合带宽。集成智能AI管理，支持人脸识别、事件标记等智慧相册功能，配合96TB超大容量与触控屏设计，兼顾专业监控与家庭娱乐需求，实现性能与颜值的全面突破。

高性能NAS 海康S1全能NAS 4K影库构建
AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

微软发布首款自研图像生成模型MAI-Image-1，跻身LMArena前十，注重实用性与光影效果；百度世界2025大会将聚焦大模型与AI全球化战略；Meta新技术使RAG推理速度提升30倍；开源项目nanochat实现低成本构建聊天AI；谷歌NotebookLM新增动漫视频生成功能；中国农大发布神农大模型3.0助力智慧农业；腾讯启动"青云奖学金"培养AI人才；苹果FS-DFM模型长文本生成效率提升128倍；谷歌Lens整合AI图像编辑功能；港大与美团提出CodePlot-CoT方法，通过代码绘图解决数学难题，性能提升21%。

AI 图像生成微软

今日大家都在搜的词：

热文

3 天
7天

阿里通义宣布开源R1-Omni模型可提升多模态情感识别能力

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

DeepSeek开源3B OCR模型：长文本识别达97%精度

百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

专注供应链单据识别 | 运小沓AI单证平台，单据识别提效500%

向AI构建能力，用模型产出价值，让金融优质发展

豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

32路监控+4K影库！海康R1全能NAS：你的私人数据管家

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

今日大家都在搜的词：

热文

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

一加15今晚发布定位全能水桶机

华为MatePad Pro流金典藏版开卖：售价7799元

余承东曝鸿蒙智行新款享界S9将于11月上市

华为MatePad Mini典藏版今日开售：售价5999元起

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

华为nova Flip S小折叠开售：首发3388元起

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

REDMI K90标准版12+512GB降价300元小米回应：可退差价

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

华为鸿蒙HarmonyOS 6公测版开启推送

站长商机

阿里通义宣布开源R1-Omni模型 可提升多模态情感识别能力

今日大家都在搜的词：

热文

站长商机

阿里通义宣布开源R1-Omni模型可提升多模态情感识别能力