AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

2025-08-12 16:41 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://www.aibase.cn/

1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型

智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，这是该公司在通向通用人工智能（AGI）道路上的又一重要探索性成果。

【AiBase提要:】
🤖 GLM-4.5V总参数达到106B，在41个视觉多模态榜单中达到SOTA性能
🎯 具备全场景视觉推理能力，包括图像推理、视频理解、GUI任务等
💡 新增"思考模式"开关，平衡效率与效果
💰 API价格低至输入2元/M tokens，输出6元/M tokens

2、阿里达摩院开源三项具身智能核心技术

在世界机器人大会上，阿里达摩院宣布开源三项自研核心技术:VLA模型RynnVLA-001-7B、世界理解模型RynnEC以及机器人上下文协议RynnRCP。这一举措旨在推动数据、模型与机器人本体的兼容适配，打通具身智能开发的完整流程。

【AiBase提要:】
🚀 开源三项核心技术:VLA模型、世界理解模型、机器人上下文协议
🔗 RynnRCP实现从传感器数据到机器人动作执行的完整工作流程
👁️ RynnVLA-001从第一人称视角视频学习人类操作技能
🌍 RynnEC从11个维度全面解析场景物体，无需依赖3D模型
详情链接:https://github.com/alibaba-damo-academy/RynnRCP

3、苹果即将升级 Apple Intelligence 至 GPT-5，推动 Siri 与写作工具智能化

苹果公司近日宣布，计划在即将发布的 iOS26、iPadOS26和 macOS Tahoe26系统更新中，将其 Apple Intelligence 中的 ChatGPT 核心模型升级至最新的 GPT-5版本。

【AiBase提要:】
🚀苹果将在 iOS26等系统更新中将 ChatGPT 模型升级至 GPT-5，以提升 Siri、写作工具和视觉智能的性能。
🚀新版本将引入多语言实时翻译及屏幕内容分析功能，增强设备在跨语言交流和信息处理方面的能力。
🚀苹果还首次向开发者开放设备端 API，支持第三方应用接入，提供低延迟和高隐私的 AI 体验。

4、高德全面接入通义大模型推出首个地图AI原生Agent

阿里巴巴集团高德地图联合通义实验室发布全球首个 AI 原生地图，推出“小高老师”智能体，实现全链路语音交互与复杂任务推理导航。

【AiBase提要:】
🎙️ 内置智能体“小高老师”，支持音频/文本等多模态交互，支持随时打断的全双工语音。
🧠 基于36万亿 token 预训练的 Qwen 大模型，实现空间语义深度理解与高效调度近百种内部工具。
🗂️ 联合推出复杂 POI 推理 Agent，可拆解多重约束并整合实时信息，提供精准推荐与导航。
🔍 依托自研 DeepResearch 框架，具备规划、反思、工具调用等完整 Agent 能力。

5、宇树科技将出征首届世界人形机器人运动会，硬件将被多队采用

宇树科技将于8月14日至17日参加首届世界人形机器人运动会。宇树透露，除其自有团队外，赛场上还将有多支队伍使用宇树机器人硬件参赛，但会搭配各自自研的算法。

【AiBase提要:】
🤖 除宇树自有团队外，赛场上还将有多个队伍使用宇树的机器人硬件参赛，但会搭配各自研发的算法。
🏟️ 此次运动会汇聚了天工、加速进化、松延动力、傅利叶、星海图等国内头部人形机器人企业，以及来自美国、德国、澳大利亚、巴西、日本等16个国家的共计280支队伍。
🔧 宇树科技的参与不仅展示了其在人形机器人硬件方面的实力，也体现了其设备在开放生态中的广泛应用和竞争力。

6、Claude AI 推出历史对话记忆功能，支持多背景切换

Anthropic 为 Claude AI 上线“记忆功能”，可自动记忆并复用用户历史对话中的背景信息，实现跨会话无缝衔接，并支持多背景隔离切换，目前仅向付费用户开放。

【AiBase提要:】
🔄 支持为不同项目设定独立背景，工作/生活场景一键切换，保持上下文延续。
💰 先行面向 Claude Max、Team、Enterprise 付费用户，Pro 版后续跟进，免费用户暂未开放。
⚙️ 用户可在“设置—搜索和参考聊天”中手动启用或查看记忆内容。
🤖 与 ChatGPT 手动预设不同，Claude 采用自动提取机制，体验更“无感”但可控性稍弱。

7、360智脑推出Light-IF系列模型显著提升复杂指令遵循能力

360智脑发布Light-IF系列模型，以“预览-自检式推理+信息熵控制”框架专治“懒惰推理”，在四大基准全面领先，小参数即可越级打大模型，并全部开源。

微信截图_20250812101839.png

【AiBase提要:】
🎯 创新Light-IF框架:难度感知指令生成→Zero-RL强化→推理模式过滤→熵保持冷启动→熵自适应正则，显著抑制“只会复述不检查”的懒惰推理。
📈 权威评测霸榜:Light-IF-32B在SuperCLUE拿下0.575，领先第二名13.9个百分点;Light-IF-1.7B小模型反超Qwen3-235B-A22B等超大模型。
🔓 全面开源:模型权重将陆续上线Hugging Face，冷启动数据集与训练代码同步发布GitHub，并联合SuperCLUE推出中文评测基准SuperCLUE-CPIFOpen。

8、字节跳动推出视频字幕无痕擦除方案基于DiT大模型打造

字节跳动发布全球首个基于DiT大模型的“视频字幕无痕擦除”方案，实现像素级修复、多语言适配、一键“擦除-翻译-口型同步”，助力短剧出海与跨境电商全球化。

微信截图_20250812103606.png

【AiBase提要:】
🎞️ 两大核心:DiT视频字幕擦除大模型+字体级分割模型，像素级精准修复，告别马赛克/模糊/闪烁。
🌐 多语言支持:突破中英限制，覆盖小语种，形成“擦除-翻译-口型同步”一站式闭环。
⚙️ 工程落地:万集数据验证，成功率100%;分布式分镜计算，效率提升数倍。
详情地址：https://console.volcengine.com/vod/

9、昆仑万维发布开源世界模型Matrix-Game2.0:实时生成分钟级高连贯视频

昆仑万维发布全球首个开源交互式世界模型 Matrix-Game2.0，实时生成分钟级25fps 高连贯视频，支持无语言提示的纯视觉驱动交互，已在 GTA、Minecraft 等场景落地。

【AiBase提要】
🚀 开源首发:业内首个通用场景实时长序列开源世界模型，持续迭代全面开放。
📹 分钟级生成:25fps 连续视频，物理规律与场景语义理解大幅提升，可直接用于游戏/影视/VR。
🎮 视觉驱动交互:摒弃语言提示，3D 因果 VAE + 多模态扩散 Transformer 逐帧响应用户动作，跨域适应多风格场景。

10、昆仑万维开源 Matrix-3D 大模型:用单张图像可生成高质量全景视频

昆仑万维开源 Matrix-3D:单图即可生成360° 可漫游3D 全景视频，轨迹一致、几何精准，全面开放代码与数据集。

【AiBase提要】
🌐 单图生成3D 世界:打破多视角依赖，直接由单张图像产出高质量全景视频与可探索3D 场景。
🎥 轨迹引导一致性:用 Mesh 渲染图驱动扩散模型，保证相机轨迹下的时空一致，减少伪影与遮挡。
⚙️ 双路径重建:超分+结构优化慢工出细活;Transformer 前馈网络极速推理，兼顾质量与效率
详情：https://github.com/SkyworkAI/Matrix-3D

（举报）

相关推荐

关键词：

荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

本期AI日报聚焦多项技术突破：月之暗面开源AI代理框架Kosong，支持异步编排与插件化设计；Replit推出AI集成功能，可一键调用300+模型；商汤发布空间智能模型SenseNova-SI，性能超越GPT-5；百度推出多模态模型ERNIE-4.5-VL，新增图像思考能力；谷歌地图全面AI化，集成Gemini实现智能交互；ChatTutor上线可视化教学系统，覆盖多学科实时推演；新版Google Finance引入AI深度搜索与财报追踪；OpenAI低调上线Polaris Alpha模型，支持256K上下文并更新知识库至2024年10月。

AI代理开源框架异步编排
荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

国家广电总局宣布自2026年3月起全面整治AI生成内容，要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》，提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro，集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX，实现文本化语音编辑。Grok新增纯文本生成视频功能，17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠，并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型，优化开发者体验。

AI动画广电总局 AIGC审核
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
荐AI日报：百度发布文心5.0；可灵2.5Turbo模型上线“首尾帧”功能；微博推出 VibeThinker-1.5B

本期AI日报聚焦多项技术突破：OpenAI推出GPT-5.1，提升对话自然度与响应速度；百度发布原生全模态大模型文心5.0，支持跨文本图像生成；微博开源VibeThinker-1.5B模型，以低成本实现高效推理；可控视频生成模型新增首尾帧控制功能；李飞飞团队推出商用3D世界生成工具Marble；东北大学开源多语言翻译模型支持60种语言；谷歌Gemini语音功能升级实现更自然交互；阿里启动“千问”项目对标ChatGPT，全面布局C端AI应用竞争。

AI视频生成可灵2.5Turbo 首尾帧功能
大模型+反诈+算力三重突破腾讯云三项成果闪耀金融科技应用场景大赛

10月30日，2025金融街论坛年会金融科技大会公布“金融科技应用场景大赛”终评结果。腾讯云“金融反电诈治理方案”与“基于TCS的AI异构算力管理平台”凭借技术创新性与场景落地能力，从全国89家机构的280个项目中脱颖而出，双双荣获“十佳应用奖”。腾讯混元大模型信贷助手方案获“探索实践奖”。三大方案在金融风控、算力基座及大模型应用三个关键领域展现突出优势，获专家团高度认可。大赛自2021年启动，已成为金融科技领域极具影响力的赛事平台。

金融科技应用场景大赛腾讯云
AI共智开源共享｜2025开放原子开发者大会开源鸿蒙技术分论坛即将启幕

2025开放原子开发者大会开源鸿蒙技术分论坛将于11月21日在北京举行，聚焦AI与操作系统融合创新。论坛将发布开源鸿蒙跨平台框架进展，展示端边云协同实践案例及年度商用成果，覆盖金融、工业、医疗等多元场景。目前社区已汇聚超9500名贡献者、70余家共建单位，迭代至6.0版本，推动智能终端生态发展。活动同步推出开发者激励计划，通过高校对话、人才授牌等机制构建&quo

开源鸿蒙 AI技术操作系统
荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

本期AI日报涵盖八大热点：Lovart AI推出"元素拆分"功能，实现海报智能分层编辑；苹果Xcode 26.1.1优化AI编码性能；阿里云通义模型双11单日翻译调用量突破14亿次；Gemini 3在历史手稿破译中展现专家级能力；德国法院裁定OpenAI使用歌词训练构成侵权；开源语音模型Maya1实现富有表现力的实时文本转语音；Meta首席AI科学家LeCun计划离职创办世界模型公司；AI专家罗福莉加入小米，将致力于构建物理世界智能。

AI设计元素拆分海报编辑
行业评级最高后，海尔智家再获ESG三项大奖

海尔智家在ESG领域再获国际认可，继MSCI ESG评级获AA级后，其产品在2026年德国设计奖中斩获绿色循环设计特别奖。这印证了海尔在绿色创新与ESG实践的双重引领。通过建立全生命周期绿色管理模式，海尔从研发到回收各环节践行可持续发展，如获奖的洗干套装能效超欧标60%，并构建行业首个废旧家电循环再生体系。面对全球化竞争，海尔以覆盖产品全链的绿色实践持续夯实ESG竞争力，为行业转型注入动力。

ESG 可持续发展绿色设计
AI视觉重塑质检“智慧之眼”，聚焦四大核心应用场景

AI视觉质检技术正以精准化、场景化、智能化为核心驱动力，推动测试测量领域从传统人工/2D检测向“3D全维度+AI深度赋能”跨越升级。2026年慕尼黑上海电子生产设备展将汇聚超千家电子制造企业，集中展示焊接工艺缺陷检测、元件贴装质量排查等核心应用场景的解决方案。头部企业将通过3D成像+AI识别、X射线智能检测等技术，实现微米级缺陷精准捕捉与全流程数据闭环管理，

AI视觉质检 3D全维度检测电子制造展会

今日大家都在搜的词：

热文

3 天
7天

AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

荐AI日报：百度发布文心5.0；可灵2.5Turbo模型上线“首尾帧”功能；微博推出 VibeThinker-1.5B

大模型+反诈+算力三重突破腾讯云三项成果闪耀金融科技应用场景大赛

AI共智开源共享｜2025开放原子开发者大会开源鸿蒙技术分论坛即将启幕

荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

行业评级最高后，海尔智家再获ESG三项大奖

AI视觉重塑质检“智慧之眼”，聚焦四大核心应用场景

今日大家都在搜的词：

热文

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

雷军回应小米双11战绩：谢谢大家支持

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

卢伟冰：小米手机双11连续三年国产销量第一

95岁巴菲特每周还上5天班此前计划年底退休

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

荣耀500系列官宣：超级标准版+超级Pro版

荣耀500系列开启预约：Pro版外观首次亮相

站长商机