首页 > 原创 > 关键词  > 正文

AI日报:智谱视觉推理模型GLM-4.5V开源;达摩院开源三项具身智能核心技术;360智脑推出Light-IF系列模型

2025-08-12 16:41 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://www.aibase.cn/

1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型

智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探索性成果。

【AiBase提要:】

🤖 GLM-4.5V总参数达到106B,在41个视觉多模态榜单中达到SOTA性能

🎯 具备全场景视觉推理能力,包括图像推理、视频理解、GUI任务等

💡 新增"思考模式"开关,平衡效率与效果

💰 API价格低至输入2元/M tokens,输出6元/M tokens

2、阿里达摩院开源三项具身智能核心技术

在世界机器人大会上,阿里达摩院宣布开源三项自研核心技术:VLA模型RynnVLA-001-7B、世界理解模型RynnEC以及机器人上下文协议RynnRCP。这一举措旨在推动数据、模型与机器人本体的兼容适配,打通具身智能开发的完整流程。

【AiBase提要:】

🚀 开源三项核心技术:VLA模型、世界理解模型、机器人上下文协议

🔗 RynnRCP实现从传感器数据到机器人动作执行的完整工作流程

👁️ RynnVLA-001从第一人称视角视频学习人类操作技能

🌍 RynnEC从11个维度全面解析场景物体,无需依赖3D模型

详情链接:https://github.com/alibaba-damo-academy/RynnRCP

3、苹果即将升级 Apple Intelligence 至 GPT-5,推动 Siri 与写作工具智能化

苹果公司近日宣布,计划在即将发布的 iOS26、iPadOS26和 macOS Tahoe26系统更新中,将其 Apple Intelligence 中的 ChatGPT 核心模型升级至最新的 GPT-5版本。

【AiBase提要:】

🚀苹果将在 iOS26等系统更新中将 ChatGPT 模型升级至 GPT-5,以提升 Siri、写作工具和视觉智能的性能。

🚀新版本将引入多语言实时翻译及屏幕内容分析功能,增强设备在跨语言交流和信息处理方面的能力。

🚀苹果还首次向开发者开放设备端 API,支持第三方应用接入,提供低延迟和高隐私的 AI 体验。

4、高德全面接入通义大模型 推出首个地图AI原生Agent

阿里巴巴集团高德地图联合通义实验室发布全球首个 AI 原生地图,推出“小高老师”智能体,实现全链路语音交互与复杂任务推理导航。

【AiBase提要:】

🎙️ 内置智能体“小高老师”,支持音频/文本等多模态交互,支持随时打断的全双工语音。

🧠 基于36万亿 token 预训练的 Qwen 大模型,实现空间语义深度理解与高效调度近百种内部工具。

🗂️ 联合推出复杂 POI 推理 Agent,可拆解多重约束并整合实时信息,提供精准推荐与导航。

🔍 依托自研 DeepResearch 框架,具备规划、反思、工具调用等完整 Agent 能力。

5、宇树科技将出征首届世界人形机器人运动会,硬件将被多队采用

宇树科技将于8月14日至17日参加首届世界人形机器人运动会。宇树透露,除其自有团队外,赛场上还将有多支队伍使用宇树机器人硬件参赛,但会搭配各自自研的算法。

QQ20250812-154449.png

【AiBase提要:】

🤖 除宇树自有团队外,赛场上还将有多个队伍使用宇树的机器人硬件参赛,但会搭配各自研发的算法 。

🏟️ 此次运动会汇聚了天工、加速进化、松延动力、傅利叶、星海图等国内头部人形机器人企业,以及来自美国、德国、澳大利亚、巴西、日本等16个国家的共计280支队伍 。

🔧 宇树科技的参与不仅展示了其在人形机器人硬件方面的实力,也体现了其设备在开放生态中的广泛应用和竞争力 。

6、Claude AI 推出历史对话记忆功能,支持多背景切换

Anthropic 为 Claude AI 上线“记忆功能”,可自动记忆并复用用户历史对话中的背景信息,实现跨会话无缝衔接,并支持多背景隔离切换,目前仅向付费用户开放。

【AiBase提要:】

🔄 支持为不同项目设定独立背景,工作/生活场景一键切换,保持上下文延续。

💰 先行面向 Claude Max、Team、Enterprise 付费用户,Pro 版后续跟进,免费用户暂未开放。

⚙️ 用户可在“设置—搜索和参考聊天”中手动启用或查看记忆内容。

🤖 与 ChatGPT 手动预设不同,Claude 采用自动提取机制,体验更“无感”但可控性稍弱。

7、360智脑推出Light-IF系列模型 显著提升复杂指令遵循能力

360智脑发布Light-IF系列模型,以“预览-自检式推理+信息熵控制”框架专治“懒惰推理”,在四大基准全面领先,小参数即可越级打大模型,并全部开源。

微信截图_20250812101839.png

【AiBase提要:】

🎯 创新Light-IF框架:难度感知指令生成→Zero-RL强化→推理模式过滤→熵保持冷启动→熵自适应正则,显著抑制“只会复述不检查”的懒惰推理。

📈 权威评测霸榜:Light-IF-32B在SuperCLUE拿下0.575,领先第二名13.9个百分点;Light-IF-1.7B小模型反超Qwen3-235B-A22B等超大模型。

🔓 全面开源:模型权重将陆续上线Hugging Face,冷启动数据集与训练代码同步发布GitHub,并联合SuperCLUE推出中文评测基准SuperCLUE-CPIFOpen。

8、字节跳动推出视频字幕无痕擦除方案 基于DiT大模型打造

字节跳动发布全球首个基于DiT大模型的“视频字幕无痕擦除”方案,实现像素级修复、多语言适配、一键“擦除-翻译-口型同步”,助力短剧出海与跨境电商全球化。

微信截图_20250812103606.png

【AiBase提要:】

🎞️ 两大核心:DiT视频字幕擦除大模型+字体级分割模型,像素级精准修复,告别马赛克/模糊/闪烁。

🌐 多语言支持:突破中英限制,覆盖小语种,形成“擦除-翻译-口型同步”一站式闭环。

⚙️ 工程落地:万集数据验证,成功率100%;分布式分镜计算,效率提升数倍。

详情地址:https://console.volcengine.com/vod/

9、昆仑万维发布开源世界模型Matrix-Game2.0:实时生成分钟级高连贯视频

昆仑万维发布全球首个开源交互式世界模型 Matrix-Game2.0,实时生成分钟级25fps 高连贯视频,支持无语言提示的纯视觉驱动交互,已在 GTA、Minecraft 等场景落地。

QQ20250812-105016.png

【AiBase提要】

🚀 开源首发:业内首个通用场景实时长序列开源世界模型,持续迭代全面开放。

📹 分钟级生成:25fps 连续视频,物理规律与场景语义理解大幅提升,可直接用于游戏/影视/VR。

🎮 视觉驱动交互:摒弃语言提示,3D 因果 VAE + 多模态扩散 Transformer 逐帧响应用户动作,跨域适应多风格场景。

10、昆仑万维开源 Matrix-3D 大模型:用单张图像可生成高质量全景视频

昆仑万维开源 Matrix-3D:单图即可生成360° 可漫游3D 全景视频,轨迹一致、几何精准,全面开放代码与数据集。

image.png

【AiBase提要】

🌐 单图生成3D 世界:打破多视角依赖,直接由单张图像产出高质量全景视频与可探索3D 场景。

🎥 轨迹引导一致性:用 Mesh 渲染图驱动扩散模型,保证相机轨迹下的时空一致,减少伪影与遮挡。

⚙️ 双路径重建:超分+结构优化慢工出细活;Transformer 前馈网络极速推理,兼顾质量与效率

详情:https://github.com/SkyworkAI/Matrix-3D

举报

  • 相关推荐
  • AI日报:阿里上线首个官方大模型NBA Chat; Ideogram4.0开源发布;OpenAI升级ChatGPT记忆系统

    今日AI领域动态:Ideogram 4.0开源发布,93亿参数打造最强文字生成AI,提升海报与品牌营销创作;OpenAI升级ChatGPT记忆系统,算力降至1/5,解决过时与准确性痛点;腾讯文档推出行业首创“人机双写”原生编辑器;xAI发布Grok Imagine Video 1.5,支持图片转视频;豆包回应AI识别野生蘑菇误判,强调仅供参考;知乎Q1扭亏为盈,AI短剧成增长点;腾讯云ADP 4.0新增Claw模式,提升企业Agent构建效率;NBA中国与阿里推出首个官方大模型“NBA Chat”。

  • AI日报:字节开源统一多模态大模型Lance 3B;智谱发布GLM-5.1高速版;CapCut与Gemini合作推出深度集成

    本期AI日报聚焦8大热点:字节跳动开源3B参数多模态大模型Lance,实现图像视频理解与生成统一;智谱发布GLM-5.1高速版API,以400 tokens/s刷新全球纪录;CapCut与Gemini合作实现AI创作智能互联;OpenAI推出ChatGPT for PowerPoint插件,一句话生成PPT;WordPress 7.0原生集成AI,开启智能建站新时代;Spotify联手环球音乐推出正版AI翻唱与混音功能;美团开源LongCat-Video-Avatar1.5数字人视频生成模型,�

  • AI日报:千问全面开放第三方Agent与Skill;字节开源统一框架 Bernini;OpenAI 推出 Sites 功能

    AI日报今日要点:1. 阿里千问全面开放第三方Agent与Skill,瑞幸、东航等首批接入,升级为"超级Agent"个人助手;2. 字节跳动开源Bernini框架,通过"先理解、再生成"机制解决视频编辑画面失控问题;3. OpenAI推出Sites功能,可将创意秒变互动网站;4. 微软Win11隐藏AI卸载选项,可释放超2.5GB硬盘空间;5. DeepSeek首轮融资估值或达4000亿元,腾讯、宁德时代拟参投;6. OpenAI发布六行业Codex工作流插件;7. 谷歌推出Android虚假来电检测功能;8. 亚马逊Ring门铃人脸识别功能遭集体诉讼。

  • AI日报:Claude Opus 4.8上线;小红书PC端上线AI搜索助手点点;阶跃星辰开源Step 3.7 Flash 大模型

    今日AI领域亮点:Anthropic发布Claude Opus 4.8,性能提升且价格大降;小红书PC端上线AI搜索助手“点点”,基于真实笔记提供对话式交互;阶跃星辰开源Step 3.7 Flash模型,专注智能体生产化;拼多多加强AI治理,打击涉考作弊工具;Grok Build 0.2.7更新,新增多代理共享终端;小米宣布MiMo旧版模型2026年6月下线;阿里云百炼全面CLI化并开源;腾讯混元推出Hy-Memory智能记忆插件,提升记忆密度与效率。

  • 视觉中国科技行业垂类AIGC素材 解锁视觉新图景

    视觉中国携手1.2万+签约AI创作者,汇集超900万优质AIGC图片、视频素材,覆盖医疗生物、航天航空、智能制造、互联网数字科技、新能源环保五大科技领域。通过AI镜头,将科创蓝图具象化,提供从写实摄影到创意构想的多样化素材,适配品牌海报、科普视频、科研配图等场景,持续更新正版AIGC素材,助力用户“看见”未来。

  • AI日报:MiniMax发布M3 大模型;英伟达物理大模型Cosmos3发布;小红书已治理超120万个AI托管账号

    今日AI领域动态丰富:MiniMax发布M3+大模型,首创MSA架构并支持1M上下文,全面开源对标海外旗舰;英伟达联合行业巨头发布全球首款全开源全模态物理AI大模型Cosmos3,成立宇宙联盟;千问APP六一期间礼品选购咨询量增长260%,展现AI购物潜力;小红书治理超120万AI托管账号,处置18万篇AI造假笔记;抖音4月新增AI短剧超4.4万部,但爆款率仅0.6%;胡彦斌上线粉丝社区应用“彦火”,展示Vibe Coding潜力;LobsterAI推出图片视频大模型矩阵,整合四大主流模型;OpenAI重启机器人业务,奥特曼公开招募工程师,拓展具身智能布局。

  • 为热爱全速行动 爱玛黑翼S360电竞版全国上市

    爱玛电动车于6月6日宣布旗下黑翼S360电竞版全国上市,主打“两轮猎装科技轿跑”定位,兼具城市通勤与短途畅玩功能。新车呈现帅、快、智、灵、大、远六大亮点,从外观、智能、操控、性能、便捷上提升出行体验。该车以极速操控、硬核性能、潮流设计组合,精准卡位高性能赛道,颠覆传统电摩设计,为年轻人打造全新出行标杆。6月17日将在全网正式开售,现已开启预约。

  • 国际评测夺冠,考拉悠然无界世界模型打造空间智能核心竞争力

    2026年5月29日,WorldArena视频质量赛道最终结果揭晓。考拉悠然联合上海码极客、同济大学空间智能团队打造的悠然无界世界模型,开源版BLM获全球第一,闭源版BWM-Fast获全球第二。该模型以数据增强、智能增广策略提升数据利用效率,基于DiT架构引入首帧引导、动态记忆及双通路动作控制,在时空连贯性、动作可控性与物理一致性上全面领先,大幅降低训练成本。WorldArena从六大

  • 懂行的玩家怎么选?RGB Mini LED 电视推荐之东芝 R700 核心技术拆解

    东芝REGZA R700电视搭载原色RGB Mini LED技术,通过专芯调校实现100% BT.2020色域和潘通双认证,解决画面发灰问题。其音画双芯架构配备BRα AI音质芯片和火箭炮SOUND系统,实现113W峰值功率的5.1.2立体声场。支持4K 180Hz原生高刷(最高HSR 330Hz)、AI场景感知和本地影音管理功能,配合黑曜屏抗反光设计,为影音游戏用户提供一步到位的旗舰选择。

  • 京东云率先上线MiniMax M3:显著提升模型推理吞吐

    MiniMax M3正式上线,京东云JoyBuilder模型开发平台已第一时间接入MiniMax M3模型并同步开放服务。 依托京东云自研推理框架,JoyBuilder采用了PD分离部署、KV Cache缓存、投机采样等先进推理优化技术,显著提升了模型推理吞吐量与响应效率。 MiniMax M3在编程、智能体等专业任务上达到了前沿水平。其采用全新的MiniMax稀疏注意力架构(MSA),最高支持100万token的超长上下文。作为一款�

今日大家都在搜的词: