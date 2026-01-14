首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报：实时世界模型 PixVerse R1发布；Vidu发布AI一键生成MV功能；可灵AI ARR达2.4亿美元

2026-01-14 15:31 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、爱诗科技发布全球首个通用实时世界模型 PixVerse R1，最高1080P 画质

爱诗科技发布全球首个通用实时世界模型 PixVerse R1，通过三大核心技术实现虚拟世界的实时交互体验，并在游戏、影视、直播等领域拓展出“人人可共创”的新可能。

image.png

【AiBase提要:】

🧠 Omni 原生多模态模型作为现实世界的 “计算基座”，统一多模态内容为连续 Token 流，生成物理逻辑一致的数字世界。

🔄 自回归流式生成机制解决长时序内容一致性问题，实现叙事的 “流式交互”。

⚡ 瞬时响应引擎 IRE提升计算效率，支撑 “即时响应” 的核心体验。

2、Vidu 发布 AI 一键生成 MV 功能，打造分钟级“虚拟制片厂”

Vidu 发布 AI 一键生成 MV 功能，标志着视频创作进入全自动端到端生成时代，用户只需提供背景音乐、参考图像和文本指令，即可在分钟级别内输出高质量 MV。该功能通过多智能体系统实现全流程自动化，极大降低了专业视频创作门槛，为创作者提供了集成化的虚拟制片厂体验。

image.png

【AiBase提要:】

🎬 全自动多智能体协同：系统内置导演、分镜、视觉生成及剪辑四大智能体，实现从解析音乐到成片输出的全流程自动化。

🖼️ 工业级风格一致性：支持最多7张参考图定位，确保在长达5分钟的视频中，角色与场景风格不发生漂移。

🎵 音画同步精准卡点：AI 能自动识别背景音乐节奏并完成转场，同时生成逐帧同步的动态字幕，分钟级即可交片。

3、编程智能体的新标准！MiniMax 发布 OctoCodingBench 基准测试

文章介绍了MiniMax公司推出的OctoCodingBench开源基准测试，旨在评估编程智能体在代码仓库环境中对指令的遵循能力。该基准测试通过测试智能体对七种不同指令来源的遵循程度，提供了一个多维度的评估框架，并采用二元检查清单的评分机制，使得评估结果更为准确。此外，OctoCodingBench还支持多个脚手架环境，如Claude Code、Kilo和Droid，这些都是实际生产环境中使用的工具。

【AiBase提要:】

🧠 评估编程智能体对指令的遵循能力

📊 提供多维度的评估框架

🔧 支持多个脚手架环境

详情链接:https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

4、快手宣布可灵AI ARR达2.4亿美元，12月收入超过2000万美元

快手科技宣布可灵AI在2025年12月实现单月营收超过2000万美元，年化收入运行率（ARR）达到2.4亿美元，展现了其在生成式AI市场的强劲增长势头。

【AiBase提要:】

🚀 可灵AI月收入突破2000万美元，年化收入运行率(ARR)达2.4亿美元。

🛠️ 技术密集迭代，发布多款模型提升专业创作效率。

🌍 服务全球超6000万用户，商业化落地覆盖多个领域。

5、国产算力+自主创新架构！智谱联合华为开源GLM-Image，首个多模态SOTA模型全链路跑通昇腾芯片

智谱AI与华为联合开源GLM-Image，该模型在性能上达到国际领先水平，并创下全球首个全流程基于国产AI芯片的多模态大模型纪录。其采用自回归+扩散解码器混合架构，实现图文语义深度对齐与联合推理，推动AIGC从“像素堆砌”迈向“语义驱动”。

image.png

【AiBase提要:】

🧠 自回归+扩散解码器混合架构，实现图文语义深度对齐与联合推理

🚀 全流程基于国产AI芯片完成，摆脱国外GPU依赖

🌐 推动AIGC从“像素堆砌”迈向“语义驱动”

详情链接:https://github.com/zai-org/GLM-Image

6、全球首款医疗大模型 Baichuan-M3 亮相：超越 GPT-5.2，实力不容小觑！

国产医疗大模型Baichuan-M3正式发布，成为全球最强的医疗AI系统。该模型由百川智能推出，专注于医疗场景的应用，融合了大量医学文献、临床指南、真实病历以及药品知识库，展现了惊人的智能医疗能力。

【AiBase提要:】

🧠 Baichuan-M3医疗大模型参数高达2350亿，具备超低幻觉率，确保医疗问诊和用药建议的准确性。

🏥 在问诊能力和医疗准确性方面，Baichuan-M3超越GPT-5.2，并优于人类医生。

🌐 百川智能开源策略鼓励开发者参与医疗AI创新，推动医疗AI生态共建。

7、谷歌重构电商未来：推出Agentic AI购物系统，Gemini CX+UCP协议实现“搜索即购买”

谷歌推出Agentic AI购物系统，结合Gemini CX与UCP协议，实现从搜索到购买的无缝体验，重构电商未来。

【AiBase提要:】

✅ 推出Agentic电商解决方案，涵盖UCP协议与Gemini CX系统，实现一站式购物闭环。

💡 用户可通过谷歌搜索直接完成购物任务，无需跳转页面。

🌐 UCP协议为AI Agent、商家与电商平台建立标准化通信桥梁，兼容现有行业标准。

8、谷歌加码医疗AI开源生态：MedGemma 1.5强化医学影像能力，同步推出语音转写模型MedASR

谷歌发布新一代开源医疗大模型MedGemma 1.5和语音识别模型MedASR，进一步完善其在医疗垂直领域的技术栈。MedGemma 1.5增强了对医学影像的理解与分析能力，从纯文本问答工具迈向多模态临床决策支持系统。MedASR则专注于医疗语音场景，提高电子病历录入效率。两个模型均基于去标识化的临床数据训练，并以开源形式发布，供全球研究者与开发者使用。

image.png

【AiBase提要:】

🧠 MedGemma 1.5强化医学影像理解与分析能力，支持多模态临床决策支持系统。

🗣️ MedASR优化医疗语音识别，提升电子病历录入效率。

🔒 谷歌开源模型遵循隐私保护规范，推动AI在基层医疗和科研中的应用。

举报

  • 相关推荐
关键词：

  • 边看边创造，在 PixVerse R1 的实时世界模型里，你真是上帝

    想象一下，用一句话生成一个世界，一句话改变一个世界，一句话无限延伸一个世界。 1月13日晚，爱诗科技正式发布 PixVerse R1，它是“全球首个通用实时世界模型”，支持最高1080P 分辨率，基于原生多模态架构、自回归流式生成和瞬时响应引擎构建。

    ​文章搜索 ​核心标签 ​视频生成

  • 全球首个通用实时世界模型PixVerse R1发布 视听媒体进入交互时代

    爱诗科技发布全球首个支持1080P实时生成视频模型PixVerse R1，实现“所想即所见、所说即所现”的实时交互体验。该模型基于Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎三大核心技术，将视频生成延迟降至“即时”响应，标志着AIGC视频生成从“静态输出”迈入“实时交互”新阶段。

    ​PixVerse ​R1 ​实时世界模型

  • AI日报：字节推StoryMem系统；月之暗面再推多模态新模型；AI眼镜Pickle 1发布

    本期AI日报聚焦多项AI领域进展：字节跳动推出StoryMem系统，提升AI生成视频角色一致性28.7%；月之暗面计划2026年推出多模态模型K2.1/K2.5；智能眼镜Pickle 1实现“无限记忆”与主动交互；清华与OpenBMB开源音频模型评测框架UltraEval-Audio；OpenAI押注语音交互，整合团队重构音频系统；开源工具Antigravity支持多账号切换，突破AI使用限制；元象开源面向泛娱乐场景的大模型XVERSE-Ent；苹果回应“国行版AI功能阉割”传闻，提醒用户勿通过第三方强行激活。

    ​AI视频生成 ​角色一致性 ​字节跳动

  • AI日报：阿里云推多模态交互开发套件；智谱AI港股首日上市；混元发布 HY-Motion1.0开源3D 角色动画生成模型

    阿里云发布多模态交互开发套件，集成通义千问、万相、百聆三大模型，赋能智能硬件。腾讯混元推出开源3D角色动画生成模型HY-Motion 1.0，助力游戏与动画制作。智谱AI在港上市，募资43亿港元，加速商业化落地。抖音在深圳南山设立第二总部，聚焦AI与泛视频研发。OpenAI推出ChatGPT Health，强化健康数据管理与隐私保护。法拉第未来宣布进军具身智能机器人领域，推动汽车与机器人业务协同。蚂蚁阿福月活超3000万，AI健康赛道进入中美竞速新阶段。MiroThinker 1.5以300亿参数实现媲美万亿模型的性能，显著降低推理成本。

    ​AI开发套件 ​多模态交互 ​智能硬件

  • 它石智航 WIYH 数据集正式开源：全球首个具身 VLTA 多模态数据，加速具身智能真实世界落地

    它石智航开源了全球首个大规模真实世界具身多模态数据集WIYH，填补了高质量、可泛化、大规模真实世界数据的空白。该数据集采用以人为中心的新范式，破解了数据采集成本高、仿真数据迁移难等痛点，为具身基座模型实现Scaling Law提供了关键语料。WIYH数据集具备真实可靠、丰富多元、全面多模态、规模化等特征，并拥有海量数据，覆盖10余种核心场景全链路任务。它石还�

    ​具身智能 ​多模态数据集 ​VLTA

  • AI日报：千问Qwen3-VL双子星开源；腾讯内测“上头蛙”AI互动故事小程序；小鹏祭出“物理世界大模型”

    本期AI日报聚焦多领域进展：阿里开源Qwen3-VL多模态检索模型，腾讯推出AI互动故事小程序“上头蛙”，小鹏发布第二代VLA模型剑指L4智驾。MiniMax港股上市首日暴涨42%，高德世界模型登顶国际榜单。阿里千问下载量突破7亿，单月击败Meta、OpenAI总和。谷歌Gmail引入AI专属收件箱与自然语言搜索，马斯克xAI进军“氛围编程”推Grok Build。

    ​AI ​多模态检索 ​开源模型

  • AI说错了你的产品信息？GEO品牌监控可实时预警错误描述

    文章指出，AI工具（如ChatGPT）在回答用户关于产品推荐等问题时，常基于过时或错误的数据，导致产品信息不准确，如价格错误、功能描述过时等，且企业往往对此不知情。这直接影响潜在客户的决策。为此，GEO品牌监控工具应运而生，它能实时监测品牌在多个国产AI平台回答中的表现，核心功能包括：曝光分析、错误信息预警和竞品对比。随着用户越来越依赖AI直接获取答案而非传统搜索，确保AI准确推荐和描述自身产品已成为品牌在AI时代的必修课。

  • 20+大模型与70+智能体调度！李未可AI眼镜定义群体智能新范式

    文章以丹尼尔·卡尼曼的“快与慢”思维系统理论为引，介绍了李未可AI智能眼镜如何将AI融入人类最自然的“看、听、说”交互中。该产品通过“超能李未可”系统，结合自研大模型与多智能体协同的“群体智能”模式，实现了从快速直觉响应到深度理性思考的无缝衔接。它能高效处理实时翻译、信息查询等日常任务，并在需要时启动多专家智能体进行复杂规划与创意生成，致力于成为用户随身、随思、随需的“第二大脑”，让技术回归增强人类感知与创造能力的本质。

    ​行为经济学 ​思考的快与慢 ​人工智能交互设计

  • 腾讯回应用户被元宝AI辱骂：小概率模型异常输出

    近日，有用户反映在使用腾讯元宝AI修改代码时，遭遇AI多次辱骂。此事迅速引发网络关注。腾讯元宝官方紧急回应称，经核查日志，该情况与用户操作无关，不存在人工干预回复，纯属小概率模型异常输出。腾讯方面坦言，AI模型在内容生成过程中，偶尔可能出现不符合预期的失误，这正是技术团队持续优化改进的重点方向。目前，腾讯已启动内部排查机制，将通过技术升级尽量避免类似情况再次发生，同时对用户反馈表示感谢。随着AI技术加速渗透日常生活，用户对智能工具的稳定性要求日益提高。此次事件为整个行业敲响了警钟——在追求技术创新的同时，如何建立更完善的质量监控体系，确保AI服务始终在可控范围内运行，将成为技术厂商必须面对的核心课题。

    ​AI异常 ​腾讯元宝 ​模型失误

  • 花3000元让AI改口，大模型的尽头是广告？

    大模型界的翘楚OpenAI，面对每年数十亿美元的研发成本，正迎来一个艰难的决定:其员工正在琢磨如何让 ChatGPT 在用户提出相关问题时，优先显示赞助内容。 也就是说，当用户让大模型推荐一家眼镜店、一款工业传感器、一家民宿时，很可能大模型给出的是企业的软广。但大模型本身可能并不知道答案被“精心设计”过，它依然兢兢业业，会根据各个指标筛选出你想要的产品�

    ​文章搜索 ​核心标签 ​OpenAI

今日大家都在搜的词：

热文

  • 3 天
  • 7天

站长商机

广告

商务合作 侵权投诉 广告服务 版权声明 招聘

©CopyRight 2002-2020 CHINAZ.COM