首页 > AI头条  > 正文

Vision-R1:强化学习助力视觉定位,图文模型性能提升 50%

2025-04-08 14:49 · 来源: AIbase基地

近日,中国科学院自动化研究所与中科紫东太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)。

当前,图文大模型通常依赖 “预训练 + 监督微调” 的方法来提高对用户指令的响应能力,但这种方法在资源消耗和训练效率上都存在较大挑战。Vision-R1通过结合高质量的指令对齐数据和强化学习,创新性地改变了这一局面。该方法通过设计一种视觉任务评估驱动的奖励机制,为模型的目标定位能力提供了强有力的支持。

image.png

具体而言,Vision-R1的奖励机制包括四个核心部分:首先,它采用了多目标预测的方式,以确保在密集场景中有效评估预测质量;其次,设计了双重格式奖励,以解决长序列预测中的格式错误问题;再者,召回奖励鼓励模型尽可能多地识别目标;最后,精度奖励则确保模型生成的目标框质量更高。这些设计相互作用,形成了 “1+1>2” 的优化效果,使模型在复杂视觉任务中表现更为出色。

为了解决预测高质量目标框的挑战,研究团队还提出了一种渐进式规则调整策略,通过动态调整奖励计算规则,促使模型持续改进其性能。训练过程分为初学阶段和进阶阶段,逐步提高奖励标准,以实现从基础到高精度的转变。

在一系列测试中,Vision-R1在经典目标检测数据集 COCO 和多样场景的 ODINW-13上显示出卓越的性能,无论是基础性能如何,经过 Vision-R1训练后,模型的表现都大幅提升,进一步接近专业定位模型。这一方法不仅有效提升了图文大模型的视觉定位能力,同时也为未来的多模态 AI 应用提供了新的方向。

项目地址:https://github.com/jefferyZhan/Griffon/tree/master/Vision-R1

  • 相关推荐
  • AI日报:Kimi K2 高速版发布;美图WHEE上线视频超清功能;字节发布新模型Seed Diffusion Preview

    【AI日报】今日AI领域重要动态:1)美图WHEE推出"视频超清"功能,通过AI技术提升视频画质;2)Kimi K2高速版发布,输出速度提升至每秒40 Tokens;3)通义千问开源编程模型Qwen3-Coder-Flash,支持大规模上下文理解;4)Anthropic企业AI市场份额升至32%,超越OpenAI;5)字节跳动发布实验性扩散语言模型Seed Diffusion;6)马斯克将为Grok用户推出视频生成器Imagine和AI虚拟男友;7)Quora的Poe平台推出开发者API;8)Black Forest Labs开源图像生成模型FLUX.1-Krea;9)Augment推出CLI工具Auggie优化开发流程;10)清华开源AI语音模型MOSS-TTSD;11)Claude升级支持多格式文件上传。

  • 美团拼好饭推出百万亮厨计划:联合20万商家图文、直播展示后厨环境

    今日,美团宣布,即日起,拼好饭正式推出百万亮厨”计划,将联合20万商家打造透明开放标杆,通过图文实况、视频直播等,向顾客即时更新真实的后厨环境。 同时,还将推动100万商家升级明厨亮灶,建设透明后厨。 美团表示,对于通过实况直播等各种形式开放后厨的商家,拼好饭将予以专项扶持和补贴。

  • 豆包App视觉推理升级 支持图片思考

    豆包App近期升级视觉推理能力,支持在思维链中运用图像思考。用户上传图片提问时,豆包能主动分析图片内容,智能放大局部细节确保不遗漏关键信息。对于复杂图片,还能智能裁剪并调用搜图功能提供更准确结果。升级后的豆包可智能调用多种工具辅助分析图片,无论是日常识物、商品查询,还是工作学习中分析图表、专业图片,都能给出更精准实用的答案。据悉,豆包是国内首个实现这一能力的产品,用户可免费体验。

  • 突破风电运维瓶颈!上交大联合昇腾实现联邦学习训练性能飞跃

    上海交大李艳婷课题组基于昇腾算力平台,开发出轻量级集群联邦学习框架(CFL)和可分离残差网络(LMSRN),显著提升风电故障诊断效率。该方案训练效率较传统方法提升58%,同时保持诊断精度不变,解决了风电行业数据异构和隐私保护难题。昇腾平台的强大算力与硬件优化能力,为模型高效运行提供支撑。这一创新成果为风电智能化运维提供了兼顾性能与安全的新方案,验证了国产算力平台在工业智能领域的适配潜力。

  • 猿辅导AI大模型:技术深融与场景革新,重构学习体验

    2025年教育科技领域迎来智能化新浪潮。猿辅导集团通过自主研发的"猿力大模型"与开源推理大模型DeepSeek深度融合,构建覆盖"数据-场景-交互"全链路的AI教育生态。其技术方案已获信通院"模型开发5级"认证,成为教育行业首个获此最高评级的大模型。硬件方面推出"小猿学练机"和"小猿AI学习机",实现学习平板与智能基座结合,支持打印、情感交互等功能。校园端覆盖25省市超1000所学校,通过"AI安全驾驶模拟"等项目培养学生计算思维。编程教育领域推出支持代码实时监测的AI-Agent工具。凭借300亿条学情数据和15亿题库构建的高质量素材库,显著降低"幻觉"风险68%。目前旗下出海产品已服务100多个国家,推动中国教育科技走向国际。

  • 腾讯云TencentOS提交Swap Table补丁系列 Linux内核内存交换性能提升20%~30%

    腾讯云操作系统团队提交了名为Swap Table的补丁系列,针对Linux内核交换子系统进行优化。该系列在4K页面和mTHP folios场景下,使系统性能提升20%-30%。Swap Table通过智能调度机制优化数据定位,支持大页尺寸减少操作次数,并实现动态空间扩展。27项独立改进解决了历史遗留问题,经实测性能显著提升。目前补丁系列正处于审核阶段,有望纳入Linux内核主线。这是腾讯云团队继内存控制组、页面热管理等创新后,在操作系统核心技术领域的又一突破,将强化TencentOS Server的高性能优势。

  • GPT-4.5和Claude4哪家强?一文看懂优劣差异,附最实用AI大模型对比工具!

    文章对比分析了GPT-4.5和Claude4两大AI模型的性能差异:GPT-4.5在响应速度、编程能力和生态开放度上占优,适合实时对话和内容创作;Claude4则在长文本处理(200k+上下文)、安全性和企业适配性方面表现突出。推荐使用AIbase的模型对比工具(https://model.aibase.com/zh/compar)进行多维度智能筛选,根据具体场景(如客服、写作、编程等)选择最适合的模型。核心结论:没有绝对优劣,�

  • 索尼ILX-LR1助力无人机实现高效罂粟巡查

    连云港空巡智能科技公司开发出搭载索尼ILX-LR1云台的无人机系统,用于罂粟等毒品原植物识别。该系统采用6100万像素相机,配合自主AI识别模型,能通过叶片形态、花果特征精准识别毒品植株,苗期识别率达90%,花果期达95%以上。ILX-LR1轻量化设计仅重243克,支持3张/秒航拍频率,可适配多旋翼和复合翼无人机,作业效率较传统方式提升8-10倍。该技术已应用于2025年禁种铲毒巡查项目,实现高空广域快速巡查,为禁毒工作提供高效精准的技术支持。

  • 广东灭蚊next level:放蚊子吃蚊子 优于化学喷洒

    近日,广东省佛山市三水区南山镇一场特殊的灭蚊行动引发社会关注。中山大学中山医学院病原生物学与生物安全学系副教授张东京带领的师生团队,通过释放华丽巨蚊幼虫捕食伊蚊幼虫的方式,为阻断基孔肯雅热疫情传播开辟了科技防控新路径。这一创新举措被网友称为“广东灭蚊next level”,标志着蚊虫防控进入生态治理新阶段。 7月30日,科研团队在南山镇积水区域按比�

  • 如何精准锁定高性价比的AI大模型?AIbase AI模型费用计算器助力开发者省心省钱选模型

    文章探讨了在预算有限的情况下如何选择合适的大模型API。面对GPT-4、Claude2、Llama2等数十种模型,开发者常陷入选择困境:既要考虑性能,又要兼顾成本。不同厂商的计费机制复杂多样(按Token、请求次数或时间),手动计算耗时且容易出错。文章推荐使用AIbase的AI模型费用计算器,该工具聚合主流模型定价数据,支持可视化交互计算,能快速比较不同场景下的使用成本,帮助�

今日大家都在搜的词: