A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布ChatGPT Agent；Suno推人声替换功能

2025-07-18 16:15 · 稿源：aibase

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、月之暗面Kimi开放平台上线Kimi Playground

Kimi Playground的发布标志着AI技术从对话助手向智能助理的转变，其工具调用功能使AI能够主动解决问题。平台为开发者提供了一站式工具调用体验，支持多种工具接入和调试，提升了开发效率。

【AiBase提要:】
✨ Kimi Playground通过工具调用功能让AI主动解决问题，实现从被动信息提供者到智能助手的转变。
🛠️ 提供直观的工具调用界面，支持内置和第三方工具接入，提升开发效率。
📊 在数据分析和旅游行程规划等场景中展现出强大的自动化能力，简化复杂任务。
详情链接:https://platform.moonshot.cn/playground

2、OpenAI重磅发布ChatGPT Agent:会主动思考，浏览、购物、做PPT!

OpenAI正式推出ChatGPT Agent，标志着人工智能从对话助手向自主任务执行者的重大飞跃。该工具整合了Operator和Deep Research功能，能够通过虚拟浏览器、终端和API完成复杂任务，提升用户效率。

【AiBase提要:】
🚀 ChatGPT Agent具备自主浏览、点击、填写表单及执行代码的能力，可处理多样任务如婚礼服装挑选或旅行行程制定。
📈 在多项基准测试中表现优异，准确率远超竞争对手，展现出强大的实用性。
🔒 强调安全性，涉及高后果操作时需用户授权，并实施严格防护措施以防止恶意攻击。
详情链接:https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/

3、Suno发布v4.5+ 推出人声替换功能，可将原唱人声换为其他人声音

Suno v4.5+ 推出了多项创新功能，包括人声替换、伴奏生成和灵感激发功能，显著提升了音乐创作的灵活性和个性化体验。同时，音质和创作体验也得到了全面优化，为音乐创作者提供了更强大的工具。

【AiBase提要:】
🎧 人声替换功能允许用户上传伴奏或使用内置乐器伴奏，并输入歌词生成完整歌曲。
🎵 Add Instrumentals功能可以将用户的歌声或哼唱转化为完整的音乐作品。
🎼 Inspire功能从播放列表中汲取灵感，快速生成符合用户审美的新歌曲。

4、AI 视频成本新高?Google Veo3通过 Gemini API 现已上线

谷歌的旗舰级视频生成模型 Veo3已通过 Gemini API 向开发者开放，提供文本转视频功能并支持同步音频生成。这标志着 AI 视频制作进入新阶段，但同时也伴随着较高的成本。Veo3是首款能通过单个文本提示生成高分辨率视频并同步生成对话、音乐和音效的模型。

【AiBase提要:】
🔥 谷歌推出旗舰视频生成模型 Veo3，支持文本转视频与同步音频生成。
💰 Veo3的价格较高，720p 视频每秒0.75美元，可能带来高昂成本。
🚀 Veo3主要应用于专业领域，如 Cartwheel 和游戏工作室 Volley 的项目中。

5、首个直播流扩散AI模型MirageLSD震撼发布，实时视频转换开启无限可能!

MirageLSD作为全球首个人工智能直播流扩散模型，凭借其超低延迟和实时视频转换能力，为直播、游戏开发、动画制作等场景带来了革命性的变化。该技术突破了传统视频生成模型的时延和长度限制，同时具备简单交互和高度灵活性，展现了巨大的应用潜力。

【AiBase提要:】
✨ MirageLSD实现了24帧/秒的运行速度和小于40毫秒的响应延迟，打破了传统视频生成模型的瓶颈。
🕹️ 支持手势控制和连续提示编辑，用户可实时改变视频中的外观、场景或服装，降低技术门槛。
🚀 在游戏开发领域展现出惊人潜力，开发者可在30分钟内快速构建一款游戏，并由模型自动处理所有图形效果。
详情链接:https://mirage.decart.ai/

6、VSCode的AI编程利器 Traycer，处理大型代码库表现出色

Traycer是一款专为Visual Studio Code设计的AI编程助手工具，通过智能任务拆解、代码规划与实时分析能力，显著提升了开发者的编码效率。其多代理协作和与VSCode Agent模式的高度兼容性，使其在处理复杂项目时表现尤为出色。

【AiBase提要:】
🧠 任务拆解与规划:根据高级任务描述生成详细的编码计划。
🔄 多代理协作:支持多个AI代理异步执行任务，提升复杂项目的处理效率。
🔍 实时代码分析:持续跟踪代码库，识别潜在错误并提出优化建议。
详情链接:https://traycer.ai

7、ART框架发布!用Python一键训练AI Agent，邮件搜索到游戏操控全能搞定!

文章介绍了ART框架的发布及其在强化学习领域的应用价值。该框架为开发者提供了便捷的工具，支持多种语言模型，并适用于多场景任务，如邮件检索和游戏开发。其模块化设计和易用性使得中小型团队和个人开发者也能快速构建高性能Agent。

【AiBase提要:】
🧠 ART框架通过集成GRPO技术，提升AI Agent性能，使其能从经验中学习并优化任务执行。
📦 框架支持多种语言模型，如Qwen2.5、Qwen3、Llama和Kimi，提供广泛的选择。
🚀 开发者可轻松集成ART，通过简单命令实现强化学习功能，降低使用门槛。
详情链接:https://github.com/openpipe/art

8、5.63%错误率创历史新低:NVIDIA AI推出商用级超高速语音识别模型Canary-Qwen-2.5B

NVIDIA推出的Canary-Qwen-2.5B模型在自动语音识别和语言处理领域实现了重大突破，以5.63%的词错率登顶Hugging Face OpenASR排行榜。该模型结合了高效的转录与语言理解能力，支持直接从音频执行摘要和问答等任务，具有广泛的商业应用潜力。

【AiBase提要:】
🧠 技术突破:统一语音理解与语言处理，实现单一模型架构。
⚡ 性能卓越:5.63% WER，实时处理速度达418倍，参数仅25亿。
💼 应用广泛:适用于企业转录、知识提取、会议总结及合规文档处理等场景。
详情链接:https://huggingface.co/nvidia/canary-qwen-2.5b

9、Mistral AI 推出新功能 Le Chat，全面追赶 ChatGPT

Mistral AI 的 Le Chat 新功能包括深度研究模式、语音交互和高级图像编辑，旨在提升用户体验并挑战 OpenAI 的 ChatGPT。其语音识别基于 Voxtral 模型，具备自然、低延迟的特性，而图像编辑功能在实际使用中表现出色。

【AiBase提要:】
🧠 **深度研究模式**:快速生成结构化研究报告，帮助用户追踪市场趋势和撰写商业策略书。
🗣️ **语音交互功能**:基于 Voxtral 模型实现自然、低延迟的语音识别，便于用户随时随地获取信息。
🎨 **高级图像编辑**:通过简单提示即可创建和编辑图像，表现优于 OpenAI 的产品。

10、百度小度上线首个支持与物理世界交互的MCP Server

百度小度上线首个支持与物理世界交互的MCP Server，为AI应用开发带来全新变革，引领行业迈向“万物智能互联”新时代。

【AiBase提要:】
💡小度上线首个支持与物理世界交互的MCP Server，实现终端设备与核心IoT能力的MCP化升级。
🌐小度开放平台推出两大核心服务，降低开发者门槛，提升智能设备操控效率。
🚀小度MCP Server推动智能家居从“单点控制”向“主动服务”进化，开启“全民智能开发”新纪元。
详情链接:https://dueros.baidu.com/dbp/mcp/console

11、Lightricks 发布 LTXV 模型更新:图像到视频生成突破60秒

Lightricks 推出的 LTXV 模型实现了从图像生成长达60秒高质量视频的突破，采用自回归流式架构和多尺度渲染技术，支持实时控制与创作灵活性，并在消费级 GPU 上高效运行。

【AiBase提要:】
🎥 LTXV 支持生成最长60秒的高质量 AI 视频，打破行业常规限制。
⚙️ 引入动态场景控制功能，允许用户实时调整视频内容细节。
⚡ 高效运行于消费级 GPU，显著降低计算成本，适合广泛创作者使用。

12、LTX-Video13B发布!30倍速生成高清视频，开源AI让创作无界限!

LTX-Video13B凭借多尺度渲染技术、高效生成速度和开源特性，为创作者提供了强大的视频生成工具，显著提升了视频的连贯性和细节表现。

【AiBase提要:】
🚀 多尺度渲染技术提升生成速度与画质，支持消费级GPU运行。
🎨 支持多种视频生成模式，提供精准控制与创意灵活性。
🌐 开源模型赋能开发者，降低使用门槛并推动AI民主化。
详情链接:https://ltx.studio

（举报）

相关推荐

关键词：

品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

某互联网大厂品牌总监分享：投入200万SEO使"企业级CRM"关键词在Google排名第一，但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时，AI回答中根本没有该品牌。更值得警惕的是，竞品不仅被提及，还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区：企业不知道AI如何"看待"自身品牌。数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道，而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念，通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力，并给出五步实施流程：建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明，系统化GEO优化能在3个月内提升品牌提及率33个百分点，证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。
荐谁能成为中国的ChatGPT？夸克抢先交卷

在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周，微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器，夸克则在国内推出了新的「对话助手」功能。这一系列消息背后，新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化，入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式，自然语言就是未来的编程语言。在海外市场，OpenA

AI浏览器 ChatGPT Atlas
荐AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；Canva免费放出Affinity专业设计套件

本期AI日报聚焦多项技术突破：OpenAI调整Sora免费额度并推出付费计划，标志视频生成进入商业化；Figma收购Weavy推出AI设计工具；OpenAI发布基于GPT-5的安全研究助手Aardvark；全球首款AI字体生成器Dr Fonts上线；中国信通院发布大模型一体机应用报告；月之暗面推出Kimi Linear架构实现推理速度6倍提升；Canva免费发布Affinity设计套件挑战Adobe；Chrome新增Gemini驱动的图像生成与深度搜索功能。

Sora OpenAI 视频生成
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

今日AI领域动态：上海首例AI提示词著作权案宣判，法院认定提示词不具独创性；月之暗面发布Kimi K2思考模型，实现自主多轮工具调用；UniWorld-V2图像编辑模型支持中文框选即改，性能超越GPT-Image；谷歌推出AI文件检测工具Magika 1.0，支持超200种格式；Sora安卓版首日下载量达47万次；我国发布全球首个AI海洋大模型“瞰海”，可精准预测10天内海洋变化；宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控；谷歌Gemini API推出文件搜索工具，简化私有RAG系统集成。

AI 著作权提示词
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
没有Pro Max！一加Ace 6T命名敲定：首发骁龙8 Gen5

此前有网友在机场拍到一加Ace 6 Pro Max包装盒，不少网友认为这就是一加即将推出的骁龙8 Gen5新机。博主数码闲聊站表示，一加骁龙8 Gen5新机不叫Ace 6 Pro Max，而是命名为Ace 6T，这里的T不是Turbo，是一加纯正的性能基因，一加的Turbo系列也已在路上了。对比一加Ace 6，一加Ace 6T处理器由骁龙8 Elite换成了骁龙8 Gen5，电池容量突破8000mAh，还将带来炫酷的联名。该博主还爆料，高通

一加Ace 6T 骁龙8
软件定义汽车的质量革命：AI Agent如何终结座舱OTA的“路测噩梦”

在“软件定义汽车”浪潮下，智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而，传统软件测试模式成本高、耗时长，难以覆盖复杂场景，易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破：需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式，测试工程师角色转向质量策略师。到2027年，超80%企业将集成AI测试工具，汽车行业2025年成为转型关键节点。

软件定义汽车智能汽车座舱体验
荐MiniMax M2：所有坑都踩过，才能做出所有人都能用上的Agent

最近一个月，基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作，大体还是走出了两条路。一种是在诸多难点里选择一个死磕，成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象，但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进，在一个最全面的基础模型蓝图里不停交出一个个关键拼图。已经有了全

基础模型 MiniMax M2

今日大家都在搜的词：

热文

3 天
7天

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布ChatGPT Agent；Suno推人声替换功能

品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

荐谁能成为中国的ChatGPT？夸克抢先交卷

荐AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；Canva免费放出Affinity专业设计套件

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

没有Pro Max！一加Ace 6T命名敲定：首发骁龙8 Gen5

软件定义汽车的质量革命：AI Agent如何终结座舱OTA的“路测噩梦”

荐MiniMax M2：所有坑都踩过，才能做出所有人都能用上的Agent

今日大家都在搜的词：

热文

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

鸿蒙智行：智界R7累计交付量破10万台

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发