首页 > 传媒 > 关键词  > OpenAI最新资讯  > 正文

OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

2025-06-10 11:48 · 稿源: 站长之家用户

据消息,OpenAI 推出的 o3 推理模型,打破了传统文字思维链的边界 —— 多模态模型初次实现将图像直接融入推理过程。

据介绍,它不仅 “看图”,还能 “用图思考”,开启了视觉与文本推理深度融合的问题求解方式。这种 “Thinking with Images” 的能力,使 o3 在视觉推理基准测试 V* Bench 上准确率飙升至 95.7%,刷新了多模态模型的推理上限。

DeepSeek R1 模型更新

不仅如此,日前,DeepSeek宣布完成R1 模型小版本试升级,并邀请用户测试官方网页、APP及小程序功能,API接口和使用方式保持不变。

R1 基于DeepSeek-V3 模型能力复现,而R2 可能需等待V4 研发成功。新版模型平均每题使用23K tokens,较旧版12K显著增加。英伟达CEO黄仁勋预测Agentic AI将推动算力需求暴增至少 100 倍。

此外,DeepSeek蒸馏出DeepSeek-R1-0528-Qwen3-8B,该8B模型在AIME 2024 数学测试中表现仅次于DeepSeek-R1-0528,超越Qwen3-8B且准确率与Qwen3-235B相当。强化后训练后,幻觉率降低45%~50%,此前R1 因高幻觉率备受批评。

DeepSeek称,此次更新通过后训练提升了模型思维深度与推理能力,尽管工具调用等能力仍有进化空间。腾讯(TCEHY.US)迅速响应R1 更新,多款产品接入DeepSeek-R1-0528。

现如今,开源与开放协议崭露头角,成为AI新竞争力。DeepSeek的开源成功促使行业倾向开源,OpenAI也考虑开源。众多企业早已开启开源战略,同时大模型开放协议如同互联网HTTP协议,让大模型能便捷调用工具,完成各类任务。

微美全息开拓产业新格局

资料显示,5G+AI视觉厂商微美全息(WIMI.US),全面加速大模型技术迭代与产业落地,围绕大模型战略,全面升级AI矩阵,积极采用“自研+拥抱开源”双轨模式,重点布局多模态大模型(文本、图像、音频、视频原生级融合),并计划提供实时多模态AI模型体验。

在行业生态上,微美全息提升多模态数据处理能力,强化商业场景应用潜力,努力加速“模型+应用”一体化,面向开发者,提供多模态交互预判需求、软硬一体开源应用方案,有望在全感官交互、场景化记忆、分布式协同等应用领域实现进一步跃升,同时以低成本、高性能多模态模型降低开发者门槛,推动应用生态繁荣。

结尾

值得一提,有多位专业人士表示,已有研究表明,AI行业今年以来,国内外科技巨头纷纷押注AI Agent。技术、生态、市场、政策等多方面原因,促使当前整个AI发展重心,由大模型向智能体演进。

总之,开源技术加速了行业生态发展,它不仅降低了训练门槛,还显著提升了泛化能力和整体性能,为开放世界的多模态智能探索提供了切实可行的新路径。并且大模型下半场的这些趋势,也为科技发展与行业变革指明方向,企业和开发者需紧跟趋势,把握机遇,应对挑战,在大模型驱动的新时代中找准定位,实现创新发展。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 豆包App视觉推理升级 支持图片思考

    豆包App近期升级视觉推理能力,支持在思维链中运用图像思考。用户上传图片提问时,豆包能主动分析图片内容,智能放大局部细节确保不遗漏关键信息。对于复杂图片,还能智能裁剪并调用搜图功能提供更准确结果。升级后的豆包可智能调用多种工具辅助分析图片,无论是日常识物、商品查询,还是工作学习中分析图表、专业图片,都能给出更精准实用的答案。据悉,豆包是国内首个实现这一能力的产品,用户可免费体验。

  • 北大张牧涵团队依托昇腾突破推理效率瓶颈 大模型推理百万tokens 成本仅 1 元

    北京大学张牧涵团队在昇腾算力支持下,研发出一套高效大模型训练推理架构,实现百万tokens输入成本低至1元。该成果包含三项关键技术:1)通过分离注意力头中的位置与非位置信息,仅用3%位置信息即可维持模型性能;2)采用联合KV低秩压缩方法,仅保留12.5%的KV Cache;3)基于昇腾硬件并行计算能力,实现Recurrent Decoding技术提升训练数据利用率。该架构显著降低AI大模型应用成本,验证了昇腾算力平台支撑尖端科研的实力。

  • 秘塔AI也终于悄悄上线了DeepResearch。

    测试完以后,我觉得这玩意,还是值得我将近通宵写一篇的。 深度研究,也就是DeepResearch。 我过去写过很多次秘塔AI了,因为我自己的搜索习惯,现在基本就是,大活上ChatGPT用DeepResearch,常识问答直接找豆包,一般的AI搜索就是秘塔AI。 当然很多ChatBot产品都有AI搜索,但是我自己这两年,还是习惯用秘塔AI和Perplexity这样形态的原生AI搜索产品了,这可能就是习惯的力量吧。

  • 准确率92%!苹果新模型可通过行为模式预测怀孕

    据媒体报道,苹果公司联合美国心脏协会和哈佛医学院布莱根妇女医院,在健康预测领域取得重大突破,推出基于行为数据的可穿戴模型WBM(Wearable Behavior Model)。 这项研究标志着健康监测从传统生物指标(如心率、血氧)向行为数据分析的拓展,为疾病预测提供了全新视角。 研究团队利用超过25亿小时的可穿戴设备数据训练WBM模型,使其能够从步数、活动能力等高层次行为

  • 三星Galaxy Z系列智能生态体验新篇章 多模态AI体验会川渝站开启

    7月25日,三星在川渝地区举办Galaxy Z系列新品AI体验活动,展示全新Galaxy Z Fold7和Flip7折叠屏手机。新品搭载多模态AI技术,配备Samsung One UI8系统,通过智能分屏、跨应用分享等功能提升效率。AI助手Bixby支持多语言翻译、解题辅导等场景应用,Galaxy Watch8系列智能手表新增健康监测功能。三星通过硬件创新与AI深度整合,重新定义移动设备交互体验,推动行业进入以人为中心的智能协同新时代。

  • 冷建全的“冷”思考:AI狂潮下,金仓数据库为何把“融合”刻进基因?

    7月15日,中国电科旗下金仓数据库以"融合进化 智领未来"为主题发布全新战略,提出未来数据库应"以融合为体,以AI为用"。金仓数据库高级副总裁冷建全指出,国产数据库在AI时代的突围路径是构建"五个一体化"融合能力体系,而非简单追逐热点。金仓数据库通过多语法体系兼容、多集群架构支持、多模型数据存储、多应用场景处理、开发运维一体化五大能力,显著降低国产化替代总成本。在AI应用方面,金仓重点布局向量计算和智能运维,其向量引擎已支持多种数据类型,并应用于公共安全、电力巡检等领域。同时推出的"K宝"AI助手可提供智能运维支持,故障预警准确率达98%以上。金仓强调"融合是根本,AI是赋能",通过夯实数据库内核能力,为各行业数字化转型提供稳定高效的数据基础设施支撑。

  • AI日报:火山引擎发布豆包3.0;通义开源Qwen3非思考模型;谷歌偷偷升级Imagen 4

    【AI日报】栏目聚焦人工智能领域最新动态:1)火山引擎发布豆包系列AI模型升级,包括图像编辑3.0、同声传译2.0等;2)通义千问开源Qwen3-30B模型,支持多语言处理;3)OpenAI推出ChatGPT Study学习助手;4)中国发布HYPIR图像复原大模型;5)谷歌NotebookLM新增视频概览功能;6)谷歌Imagen4图像生成模型升级,性能媲美GPT-4o;7)昆仑万维开源多模态模型Skywork UniPic;8)理想汽车发布首搭VLA大模型的i8纯电SUV;9)谷歌在英国推出AI搜索模式;10)OWL团队开源多智能体协作工具;11)2025年用户增速最快APP榜单显示DeepSeek等AIGC应用表现突出。

  • 不止是展会 更是科技命脉!高交会亚洲半导体与集成电路产业展开启产业融合新图景

    本文阐述了半导体与集成电路产业在高交会中的核心地位。文章指出,半导体作为"信息时代的粮食"和"工业明珠",是AI、新能源车、5G等前沿科技的底层支撑。亚洲半导体与集成电路产业展成为连接实验室与生产线的关键枢纽,汇聚了全球顶尖企业、细分领域冠军和创新平台。展会不仅展示中国半导体实力,更为企业提供对接政策资源、抢占产业升级先机的核心入口。通过技术展示、商业洽谈和生态对接,该展会正推动中国突破半导体"卡脖子"困境,迈向自主创新。

  • 视觉中国战投企业景致三维:启动深圳首家3D数字技术订单班

    视觉中国战略投资企业景致三维联合深圳携创高级技工学校,于2025年7月22日启动深圳首家"3D梦工场订单班"。该项目针对3D数字技术人才缺口,定向培养逆向工程师、动画师、渲染师等紧缺人才。课程引入亚马逊、京东等真实商业项目案例,学生将系统学习3ds Max、Maya等主流工具,并考取职业资格证书。学习期间企业提供奖学金和带薪实习,毕业生考核合格可直接入职景�

  • OpenAI发布ChatGPT Agent智能体:支持写代码、做PPT、分析金融

    OpenAI推出ChatGPT智能体,整合网页交互、数据搜索与多模态协作功能,可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放,Pro版近乎无限使用,其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限,并