首页 > AI头条  > 正文

英伟达推出全模态理解模型 OmniVinci,刷新 SOTA 高出19.05分

2025-10-28 11:35 · 来源: AIbase基地

 英伟达研究团队今日发布了名为 OmniVinci 的全模态理解模型,该模型在关键的全模态理解基准测试中取得了惊人的成果,相较于现有顶尖模型高出19.05分。更为引人注目的是,OmniVinci 仅使用了1/6的训练数据,展现出卓越的数据效率和性能。

OmniVinci 的目标是创建一个能够同时理解视觉、音频和文本的全能 AI 系统,使机器能够像人类一样通过多种感官感知并理解复杂的世界。为了实现这一目标,英伟达团队采取了创新的架构设计和数据管理策略,通过一个统一的全模态潜在空间,将不同感官的信息融合在一起,实现了跨模态的理解和推理。

QQ20251028-113422.png

在 Dailyomni 基准测试中,OmniVinci 的表现超过了 Qwen2.5-Omni,其在音频理解的 MMAR 测试中高出1.7分,在视觉理解的 Video-MME 测试中高出3.9分。使用的训练 Token 仅为0.2万亿,而 Qwen2.5-Omni 的训练量为1.2万亿,显示出 OmniVinci 的训练效率是其6倍。

该模型的核心创新在于全模态对齐机制,包括 OmniAlignNet 模块、时间嵌入分组(TEG)和约束旋转时间嵌入(CRTE)三项技术。OmniAlignNet 利用视觉和音频信号之间的互补性,加强了两者的学习与对齐。而 TEG 则通过将视觉和音频信息按时间分组,有效编码了时间关系。CRTE 则进一步解决了时间对齐问题,确保模型能够理解事件的绝对时间信息。

QQ20251028-113437.png

研究团队采用了两阶段的训练方法,首先进行模态特定训练,随后进行全模态联合训练,以逐步提升模型的全模态理解能力。在隐式全模态学习方面,研究者们通过现有的视频问答数据集,进一步提高了模型对音视频的联合理解能力。

OmniVinci 的问世标志着英伟达在多模态 AI 领域的重要突破,预计将在各类应用中推动 AI 技术的发展,助力更智能的系统和服务的出现。该模型的开源发布,也将为全球的研究人员和开发者提供新的机遇,推动 AI 在实际应用中的进一步探索与创新。

  • 相关推荐
  • 国补1929元起!联想moto X70 Air预售:比iPhone Air更轻更薄

    联想moto X70 Air将于10月31日发布,新机目前已在联想商城、京东等电商平台开启预售。 据了解,联想moto X70 Air提供12GB 256GB、12GB 512GB两个版本,上市价分别为2599元和2899元。 联想moto手机京东自营旗舰店显示,联想moto X70 Air券后叠加国补到手价为1929元、2189元。

  • 3999元起!一图看懂一加15:性能Ultra旗舰、首发165Hz高刷高分

    快科技10月27日消息,一加15今晚发布,定位性能Ultra超旗舰,全球首发165Hz高刷高分屏,起售价3999元。外观提供三款配色,采用超窄四等边设计;搭载第五代骁龙8至尊版与风驰游戏内核,配备电竞三芯与冰河散热系统,支持165Hz超帧游戏;屏幕获护眼认证,支持1nit暗夜显示;影像搭载OPPO LUMO凝光影像,5000万三摄;内置7300mAh电池,支持120W闪充与50W无线充电;具备IP68/69防尘防水、高振感X轴马达等配置,预装ColorOS 16系统。

  • “全球Robotaxi第一股”文远知行:港股上市临近,商业化进程加速

    文远知行通过港交所聆讯,正式进入港股上市冲刺阶段,将构建“美股+港股”双资本平台。作为全球自动驾驶标杆企业,其产品已在7个国家获自动驾驶牌照,在11国30城开展测试运营,安全运营超2200天。技术层面,预测算法误差控制在0.2米内,感知模型延迟小于10毫秒,系统检测精度达99%。成本大幅下降,单车成本降至几十万元,二季度营收同比增长60.8%,自动驾驶网约车业务猛增836.7%。近期获准在北京开展夜间道路测试,向全天候服务网络迈出关键一步。随着技术成熟与商业模式验证,万亿级自动驾驶市场正迎来规模化运营拐点。

  • 中航未来丨航艺学子全场最高分!荣获一等奖

    2025年10月16日,重庆工商大学举办第五届“红岩铸魂,筑梦启航”新生演讲比赛决赛。艺术学院航空服务艺术与管理专业陈丰毅同学凭借出色的语言感染力和真挚情感表达,以全场最高分荣获一等奖。其演讲《看不见的光,也能起航》结合志愿服务经历与民航精神,展现专业人文温度,同时刷新该专业在此赛事的历史最佳成绩,彰显学院育人成果。校领导及各部门负责人出席活动,共同见证新生以青春之声诠释主题精神。

  • 九号公司举办首届「MoTech Day 2025」:让技术回归生活,让创新成为日常

    10月24日,九号公司举办首届“MoTech Day 2025”技术文化节,这是专属于工程师的节日,也是公司首次以“技术文化”为核心议题的集团级活动。活动通过嘉宾演讲、互动体验与创意挑战等形式,聚焦智能出行、AI芯片、能源技术等前沿领域,旨在让“工程师精神”成为九号文化的核心符号,推动技术与文化双向融合,构建长期创新驱动力。活动还同步推出面向高校的“MoTech创意挑战赛”,并搭建线下互动打卡区,强化内部技术认同与组织活力,重塑品牌科技形象。

  • 重新定义开放式耳机通讯体验:开石OpenRock推出全球首款可拆卸磁吸咪杆开放式耳机,于Kickstarter震撼上线

    OpenRock推出全球首款可拆卸磁吸开放式耳机Link20,搭载独家MagShield™ FusionTech磁吸连接技术,解决传统开放式耳机通话质量差的痛点。产品采用人体工学近场音孔设计,配合5麦克风阵列与AI降噪系统,实现高清通话与Hi-Fi级音质。单耳仅重9克,支持IPX7防水与13小时续航,现已在Kickstarter开启首发预售,早鸟价105美元。

  • “大模型应用”新风口:“无人测试”趋势,CIO/CTO如何应对

    当前CIO面临的核心挑战是如何在有限IT预算下加速企业数字化转型。传统软件测试环节因人力密集、周期冗长成为效率瓶颈,而AI技术正推动测试模式从"辅助"向"无人化"演进。通过AI Agent实现全流程自主测试,可提升测试效率300%、降低成本30%,并将产品发布周期从"月"压缩至"周"。这不仅是技术升级,更是重构IT成本结构、实现降本增效的战略支点,助力IT部门从成本中心转型为价值创造中心。

  • OPPO Find X9预订量刷新Find系列历史最高纪录

    OPPO Find X9系列正式发布,起售价4399元。影像系统全面升级,全球首发哈苏2亿超清长焦镜头,支持8K照片和4K视频拍摄,Find X9 Pro主摄采用AOA光学校准技术,解析力提升15%,进光量增加140%。搭载天玑9500芯片,内置7025mAh电池(Pro版7500mAh),支持80W快充和50W无线充电。全球首发1nit明眸护眼屏,支持240Hz触控采样和3840Hz高频PWM调光,配备10.7亿色显示。发布后一小时预订量刷新系列纪录,市场热度高涨。

  • 雷军回应K90定价:最近内存涨价太多 希望大家理解这份诚意

    10月24日,Redmi宣布K90标准版12GB+512GB机型在首销月降价300元,售价定为2899元。小米CEO雷军解释称,近期内存价格上涨过多,希望用户理解。数码博主透露,内存市场涨价趋势严峻,已从供应链传导至消费端,预计大容量存储产品价格将持续攀升。同时,小米第二季度财报显示手机毛利率下降,部分原因在于存储器等关键元器件价格上涨。在此背景下,Redmi K90的降价举措为市场带来一丝暖意。

  • 只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

    ​这几天,OCR这个词,绝对是整个AI圈最火的词。因为DeepSeek-OCR,甚至让OCR这个赛道文艺复兴,又给直接带火了。 整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。 然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL

今日大家都在搜的词: