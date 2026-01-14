欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://app.aibase.com/zh

1、爱诗科技发布全球首个通用实时世界模型 PixVerse R1，最高1080P 画质

爱诗科技发布全球首个通用实时世界模型 PixVerse R1，通过三大核心技术实现虚拟世界的实时交互体验，并在游戏、影视、直播等领域拓展出“人人可共创”的新可能。

【AiBase提要:】 🧠 Omni 原生多模态模型作为现实世界的 “计算基座”，统一多模态内容为连续 Token 流，生成物理逻辑一致的数字世界。 🔄 自回归流式生成机制解决长时序内容一致性问题，实现叙事的 “流式交互”。 ⚡ 瞬时响应引擎 IRE提升计算效率，支撑 “即时响应” 的核心体验。

2、Vidu 发布 AI 一键生成 MV 功能，打造分钟级“虚拟制片厂”

Vidu 发布 AI 一键生成 MV 功能，标志着视频创作进入全自动端到端生成时代，用户只需提供背景音乐、参考图像和文本指令，即可在分钟级别内输出高质量 MV。该功能通过多智能体系统实现全流程自动化，极大降低了专业视频创作门槛，为创作者提供了集成化的虚拟制片厂体验。

【AiBase提要:】 🎬 全自动多智能体协同：系统内置导演、分镜、视觉生成及剪辑四大智能体，实现从解析音乐到成片输出的全流程自动化。 🖼️ 工业级风格一致性：支持最多7张参考图定位，确保在长达5分钟的视频中，角色与场景风格不发生漂移。 🎵 音画同步精准卡点：AI 能自动识别背景音乐节奏并完成转场，同时生成逐帧同步的动态字幕，分钟级即可交片。

3、编程智能体的新标准！MiniMax 发布 OctoCodingBench 基准测试

文章介绍了MiniMax公司推出的OctoCodingBench开源基准测试，旨在评估编程智能体在代码仓库环境中对指令的遵循能力。该基准测试通过测试智能体对七种不同指令来源的遵循程度，提供了一个多维度的评估框架，并采用二元检查清单的评分机制，使得评估结果更为准确。此外，OctoCodingBench还支持多个脚手架环境，如Claude Code、Kilo和Droid，这些都是实际生产环境中使用的工具。

【AiBase提要:】 🧠 评估编程智能体对指令的遵循能力 📊 提供多维度的评估框架 🔧 支持多个脚手架环境 详情链接:https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

4、快手宣布可灵AI ARR达2.4亿美元，12月收入超过2000万美元

快手科技宣布可灵AI在2025年12月实现单月营收超过2000万美元，年化收入运行率（ARR）达到2.4亿美元，展现了其在生成式AI市场的强劲增长势头。

【AiBase提要:】 🚀 可灵AI月收入突破2000万美元，年化收入运行率(ARR)达2.4亿美元。 🛠️ 技术密集迭代，发布多款模型提升专业创作效率。 🌍 服务全球超6000万用户，商业化落地覆盖多个领域。

5、国产算力+自主创新架构！智谱联合华为开源GLM-Image，首个多模态SOTA模型全链路跑通昇腾芯片

智谱AI与华为联合开源GLM-Image，该模型在性能上达到国际领先水平，并创下全球首个全流程基于国产AI芯片的多模态大模型纪录。其采用自回归+扩散解码器混合架构，实现图文语义深度对齐与联合推理，推动AIGC从“像素堆砌”迈向“语义驱动”。

【AiBase提要:】 🧠 自回归+扩散解码器混合架构，实现图文语义深度对齐与联合推理 🚀 全流程基于国产AI芯片完成，摆脱国外GPU依赖 🌐 推动AIGC从“像素堆砌”迈向“语义驱动” 详情链接:https://github.com/zai-org/GLM-Image

6、全球首款医疗大模型 Baichuan-M3 亮相：超越 GPT-5.2，实力不容小觑！

国产医疗大模型Baichuan-M3正式发布，成为全球最强的医疗AI系统。该模型由百川智能推出，专注于医疗场景的应用，融合了大量医学文献、临床指南、真实病历以及药品知识库，展现了惊人的智能医疗能力。

【AiBase提要:】 🧠 Baichuan-M3医疗大模型参数高达2350亿，具备超低幻觉率，确保医疗问诊和用药建议的准确性。 🏥 在问诊能力和医疗准确性方面，Baichuan-M3超越GPT-5.2，并优于人类医生。 🌐 百川智能开源策略鼓励开发者参与医疗AI创新，推动医疗AI生态共建。

7、谷歌重构电商未来：推出Agentic AI购物系统，Gemini CX+UCP协议实现“搜索即购买”

谷歌推出Agentic AI购物系统，结合Gemini CX与UCP协议，实现从搜索到购买的无缝体验，重构电商未来。

【AiBase提要:】 ✅ 推出Agentic电商解决方案，涵盖UCP协议与Gemini CX系统，实现一站式购物闭环。 💡 用户可通过谷歌搜索直接完成购物任务，无需跳转页面。 🌐 UCP协议为AI Agent、商家与电商平台建立标准化通信桥梁，兼容现有行业标准。

8、谷歌加码医疗AI开源生态：MedGemma 1.5强化医学影像能力，同步推出语音转写模型MedASR

谷歌发布新一代开源医疗大模型MedGemma 1.5和语音识别模型MedASR，进一步完善其在医疗垂直领域的技术栈。MedGemma 1.5增强了对医学影像的理解与分析能力，从纯文本问答工具迈向多模态临床决策支持系统。MedASR则专注于医疗语音场景，提高电子病历录入效率。两个模型均基于去标识化的临床数据训练，并以开源形式发布，供全球研究者与开发者使用。

【AiBase提要:】 🧠 MedGemma 1.5强化医学影像理解与分析能力，支持多模态临床决策支持系统。 🗣️ MedASR优化医疗语音识别，提升电子病历录入效率。 🔒 谷歌开源模型遵循隐私保护规范，推动AI在基层医疗和科研中的应用。

（举报）