首页 > 原创 > 关键词  > 正文

AI日报:智谱视觉推理模型GLM-4.5V开源;达摩院开源三项具身智能核心技术;360智脑推出Light-IF系列模型

2025-08-12 16:41 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://www.aibase.cn/

1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型

智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探索性成果。

【AiBase提要:】

🤖 GLM-4.5V总参数达到106B,在41个视觉多模态榜单中达到SOTA性能

🎯 具备全场景视觉推理能力,包括图像推理、视频理解、GUI任务等

💡 新增"思考模式"开关,平衡效率与效果

💰 API价格低至输入2元/M tokens,输出6元/M tokens

2、阿里达摩院开源三项具身智能核心技术

在世界机器人大会上,阿里达摩院宣布开源三项自研核心技术:VLA模型RynnVLA-001-7B、世界理解模型RynnEC以及机器人上下文协议RynnRCP。这一举措旨在推动数据、模型与机器人本体的兼容适配,打通具身智能开发的完整流程。

【AiBase提要:】

🚀 开源三项核心技术:VLA模型、世界理解模型、机器人上下文协议

🔗 RynnRCP实现从传感器数据到机器人动作执行的完整工作流程

👁️ RynnVLA-001从第一人称视角视频学习人类操作技能

🌍 RynnEC从11个维度全面解析场景物体,无需依赖3D模型

详情链接:https://github.com/alibaba-damo-academy/RynnRCP

3、苹果即将升级 Apple Intelligence 至 GPT-5,推动 Siri 与写作工具智能化

苹果公司近日宣布,计划在即将发布的 iOS26、iPadOS26和 macOS Tahoe26系统更新中,将其 Apple Intelligence 中的 ChatGPT 核心模型升级至最新的 GPT-5版本。

【AiBase提要:】

🚀苹果将在 iOS26等系统更新中将 ChatGPT 模型升级至 GPT-5,以提升 Siri、写作工具和视觉智能的性能。

🚀新版本将引入多语言实时翻译及屏幕内容分析功能,增强设备在跨语言交流和信息处理方面的能力。

🚀苹果还首次向开发者开放设备端 API,支持第三方应用接入,提供低延迟和高隐私的 AI 体验。

4、高德全面接入通义大模型 推出首个地图AI原生Agent

阿里巴巴集团高德地图联合通义实验室发布全球首个 AI 原生地图,推出“小高老师”智能体,实现全链路语音交互与复杂任务推理导航。

【AiBase提要:】

🎙️ 内置智能体“小高老师”,支持音频/文本等多模态交互,支持随时打断的全双工语音。

🧠 基于36万亿 token 预训练的 Qwen 大模型,实现空间语义深度理解与高效调度近百种内部工具。

🗂️ 联合推出复杂 POI 推理 Agent,可拆解多重约束并整合实时信息,提供精准推荐与导航。

🔍 依托自研 DeepResearch 框架,具备规划、反思、工具调用等完整 Agent 能力。

5、宇树科技将出征首届世界人形机器人运动会,硬件将被多队采用

宇树科技将于8月14日至17日参加首届世界人形机器人运动会。宇树透露,除其自有团队外,赛场上还将有多支队伍使用宇树机器人硬件参赛,但会搭配各自自研的算法。

QQ20250812-154449.png

【AiBase提要:】

🤖 除宇树自有团队外,赛场上还将有多个队伍使用宇树的机器人硬件参赛,但会搭配各自研发的算法 。

🏟️ 此次运动会汇聚了天工、加速进化、松延动力、傅利叶、星海图等国内头部人形机器人企业,以及来自美国、德国、澳大利亚、巴西、日本等16个国家的共计280支队伍 。

🔧 宇树科技的参与不仅展示了其在人形机器人硬件方面的实力,也体现了其设备在开放生态中的广泛应用和竞争力 。

6、Claude AI 推出历史对话记忆功能,支持多背景切换

Anthropic 为 Claude AI 上线“记忆功能”,可自动记忆并复用用户历史对话中的背景信息,实现跨会话无缝衔接,并支持多背景隔离切换,目前仅向付费用户开放。

【AiBase提要:】

🔄 支持为不同项目设定独立背景,工作/生活场景一键切换,保持上下文延续。

💰 先行面向 Claude Max、Team、Enterprise 付费用户,Pro 版后续跟进,免费用户暂未开放。

⚙️ 用户可在“设置—搜索和参考聊天”中手动启用或查看记忆内容。

🤖 与 ChatGPT 手动预设不同,Claude 采用自动提取机制,体验更“无感”但可控性稍弱。

7、360智脑推出Light-IF系列模型 显著提升复杂指令遵循能力

360智脑发布Light-IF系列模型,以“预览-自检式推理+信息熵控制”框架专治“懒惰推理”,在四大基准全面领先,小参数即可越级打大模型,并全部开源。

微信截图_20250812101839.png

【AiBase提要:】

🎯 创新Light-IF框架:难度感知指令生成→Zero-RL强化→推理模式过滤→熵保持冷启动→熵自适应正则,显著抑制“只会复述不检查”的懒惰推理。

📈 权威评测霸榜:Light-IF-32B在SuperCLUE拿下0.575,领先第二名13.9个百分点;Light-IF-1.7B小模型反超Qwen3-235B-A22B等超大模型。

🔓 全面开源:模型权重将陆续上线Hugging Face,冷启动数据集与训练代码同步发布GitHub,并联合SuperCLUE推出中文评测基准SuperCLUE-CPIFOpen。

8、字节跳动推出视频字幕无痕擦除方案 基于DiT大模型打造

字节跳动发布全球首个基于DiT大模型的“视频字幕无痕擦除”方案,实现像素级修复、多语言适配、一键“擦除-翻译-口型同步”,助力短剧出海与跨境电商全球化。

微信截图_20250812103606.png

【AiBase提要:】

🎞️ 两大核心:DiT视频字幕擦除大模型+字体级分割模型,像素级精准修复,告别马赛克/模糊/闪烁。

🌐 多语言支持:突破中英限制,覆盖小语种,形成“擦除-翻译-口型同步”一站式闭环。

⚙️ 工程落地:万集数据验证,成功率100%;分布式分镜计算,效率提升数倍。

详情地址:https://console.volcengine.com/vod/

9、昆仑万维发布开源世界模型Matrix-Game2.0:实时生成分钟级高连贯视频

昆仑万维发布全球首个开源交互式世界模型 Matrix-Game2.0,实时生成分钟级25fps 高连贯视频,支持无语言提示的纯视觉驱动交互,已在 GTA、Minecraft 等场景落地。

QQ20250812-105016.png

【AiBase提要】

🚀 开源首发:业内首个通用场景实时长序列开源世界模型,持续迭代全面开放。

📹 分钟级生成:25fps 连续视频,物理规律与场景语义理解大幅提升,可直接用于游戏/影视/VR。

🎮 视觉驱动交互:摒弃语言提示,3D 因果 VAE + 多模态扩散 Transformer 逐帧响应用户动作,跨域适应多风格场景。

10、昆仑万维开源 Matrix-3D 大模型:用单张图像可生成高质量全景视频

昆仑万维开源 Matrix-3D:单图即可生成360° 可漫游3D 全景视频,轨迹一致、几何精准,全面开放代码与数据集。

image.png

【AiBase提要】

🌐 单图生成3D 世界:打破多视角依赖,直接由单张图像产出高质量全景视频与可探索3D 场景。

🎥 轨迹引导一致性:用 Mesh 渲染图驱动扩散模型,保证相机轨迹下的时空一致,减少伪影与遮挡。

⚙️ 双路径重建:超分+结构优化慢工出细活;Transformer 前馈网络极速推理,兼顾质量与效率

详情:https://github.com/SkyworkAI/Matrix-3D

举报

  • 相关推荐
  • AI日报:阿里推全新图片模型Qwen-Image;小米全量开源MiDashengLM-7B;智谱Zread.ai搭载 GLM-4.5

    本文汇总了AI领域最新动态:1)阿里开源文生图模型Qwen-Image,中文文本渲染领先;2)ChatGPT周活用户达7亿,OpenAI年收入120亿美元;3)Anthropic测试Claude Opus 4.1,推理能力升级;4)智谱推出开发工具Zread.ai提升代码理解效率;5)xAI发布Grok Imagine4支持文生视频及NSFW内容;6)Character.AI推出首个AI原生社交功能;7)阿里与南开合作视频压缩技术LLaVA-Scissor;8)北京团队突破人形机器人3D视觉系统�

  • AI日报:智谱AI重磅发布GLM-4.5;阿里开源Wan2.2;阶跃星辰推全新模型Step3

    【AI日报】本期重点内容:1.智谱AI发布开源大模型GLM-4.5,在推理、编码和智能体能力方面达到SOTA水平;2.阿里开源视频生成模型Wan2.2,采用MoE架构提升计算效率;3.阶跃星辰推出AI研究助手"阶跃深研",支持金融医疗等专业领域研究;4.微软Edge浏览器新增Copilot模式,提供智能搜索体验;5.Anthropic对Claude用户实施使用限制引发争议;6.阶跃星辰发布321B参数大模型Step3;7.蚂�

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • AI日报:混元推四款小尺寸开源模型;昆仑万维发布新推理大模型MindLink;谷歌Gemini 2.5 Deep Think发布

    【AI日报】汇总了最新AI领域动态:1)腾讯开源混元系列小尺寸模型,适用于消费级显卡;2)昆仑万维发布推理大模型MindLink,提升回答透明度;3)B站推出AI原声翻译功能,保留UP主音色;4)谷歌Gemini 2.5在数学奥赛夺金,展现强大推理能力;5)OpenAI展示GPT-5网络信息整合特性;6)苹果组建AI团队挑战ChatGPT;7)高德地图推出全球首个AI原生地图应用;8)Adobe推出AI图像合成工具Harmonize;9)NVIDIA发布革命性视频渲染技术;10)谷歌推出Android Studio免费AI编程助手;11)开源结构化信息提取工具LangExtract;12)Figma开发者模式升级提升设计转代码效率。

  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • 华为发布AI推理技术UCM:降低HBM依赖 计划9月正式开源

    在2025金融AI推理应用落地与发展论坛上,华为重磅发布了其AI推理创新技术UCM(推理记忆数据管理器)。这项技术被业内视为有望重塑国内AI推理格局的关键突破。 UCM技术的核心在于其先进的KV Cache系统,通过融合多种缓存加速算法工具与精细的分级管理策略,高效处理推理过程中产生的大量记忆数据。这带来了多重显著优势:有效扩大上下文窗口,确保推理过程的高吞吐量与

  • AI日报:昆仑万维发布SkyReels-A3模型;百度搜索PC端全面上线AI搜索;Grok 4 AI模型永久免费开放

    AI日报栏目聚焦人工智能领域最新动态:1)昆仑万维发布SkyReels-A3模型,实现语音驱动数字人生成;2)xAI宣布Grok4模型永久免费开放;3)OpenAI发布GPT-5提示词指南;4)百度PC端上线AI搜索功能;5)微软Windows Co pilot接入GPT-5;6)百川智能开源医疗大模型Baichuan-M2性能超越GPT-oss120b;7)苹果iOS26将集成ChatGPT-5;8)谷歌推出3D视觉编辑框架BlenderFusion;9)轻量级TTS模型Kitten TTS参数仅1500万;10)MiniCPM-V

  • OpenAI发布2款开源模型:gpt-oss系列 能力接近o3和o4-mini

    OpenAI发布开源模型系列GPT-OSS,包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构,20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口,支持动态参数调节和任务微调优化,性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能,包括网页交互和Python代码执行,在标准化测试中表现优异。开源策略为开发者提供高性能替代方案,重新定义了AI模型的应用边界。

  • 百川开源最新医疗大模型,中国力量领跑医疗AI赛道

    专注医疗后,百川智能交出第一份答卷! 8月11日,百川智能发布第二款开源医疗增强推理大模型Baichuan-M2,其以32B的参数量,在OpenAI的Healthbench评测集上,超越其刚刚发布5天的开源模型gpt-oss-120b。

  • 全球 AI 大模型排行榜 2025:GLM‑4.5 vs Qwen3‑235B‑A22B 深度对比

    2025年AI大模型技术进入竞争白热化阶段,中国厂商智谱AI与阿里通义在全球舞台持续发力。GLM-4.5系列和Qwen3系列成为最具代表性的开源模型:GLM-4.5采用MoE架构,综合性能全球第三,在编码任务中胜率超80%,工具调用成功率90.6%;Qwen3-235B采用动态专家路由机制,在长文本处理和中英文任务表现突出。文章通过架构、参数规模、基准测试等维度对比分析,推荐开发者使用AIbase模型广场一站式掌握全球大模型动态。最终结论:追求全面性能选GLM-4.5-X,注重部署效率选Qwen3-235B,轻量场景选Qwen332B。

今日大家都在搜的词: