首页 > 原创 > 关键词  > 正文

A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

2025-07-18 16:15 · 稿源:aibase

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、月之暗面Kimi开放平台上线Kimi Playground

Kimi Playground的发布标志着AI技术从对话助手向智能助理的转变,其工具调用功能使AI能够主动解决问题。平台为开发者提供了一站式工具调用体验,支持多种工具接入和调试,提升了开发效率。

image.png

【AiBase提要:】

✨ Kimi Playground通过工具调用功能让AI主动解决问题,实现从被动信息提供者到智能助手的转变。

🛠️ 提供直观的工具调用界面,支持内置和第三方工具接入,提升开发效率。

📊 在数据分析和旅游行程规划等场景中展现出强大的自动化能力,简化复杂任务。

详情链接:https://platform.moonshot.cn/playground

2、OpenAI重磅发布ChatGPT Agent:会主动思考,浏览、购物、做PPT!

OpenAI正式推出ChatGPT Agent,标志着人工智能从对话助手向自主任务执行者的重大飞跃。该工具整合了Operator和Deep Research功能,能够通过虚拟浏览器、终端和API完成复杂任务,提升用户效率。

【AiBase提要:】

🚀 ChatGPT Agent具备自主浏览、点击、填写表单及执行代码的能力,可处理多样任务如婚礼服装挑选或旅行行程制定。

📈 在多项基准测试中表现优异,准确率远超竞争对手,展现出强大的实用性。

🔒 强调安全性,涉及高后果操作时需用户授权,并实施严格防护措施以防止恶意攻击。

详情链接:https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/

3、Suno发布v4.5+ 推出人声替换功能,可将原唱人声换为其他人声音

Suno v4.5+ 推出了多项创新功能,包括人声替换、伴奏生成和灵感激发功能,显著提升了音乐创作的灵活性和个性化体验。同时,音质和创作体验也得到了全面优化,为音乐创作者提供了更强大的工具。

【AiBase提要:】

🎧 人声替换功能允许用户上传伴奏或使用内置乐器伴奏,并输入歌词生成完整歌曲。

🎵 Add Instrumentals功能可以将用户的歌声或哼唱转化为完整的音乐作品。

🎼 Inspire功能从播放列表中汲取灵感,快速生成符合用户审美的新歌曲。

4、AI 视频成本新高?Google Veo3通过 Gemini API 现已上线

谷歌的旗舰级视频生成模型 Veo3已通过 Gemini API 向开发者开放,提供文本转视频功能并支持同步音频生成。这标志着 AI 视频制作进入新阶段,但同时也伴随着较高的成本。Veo3是首款能通过单个文本提示生成高分辨率视频并同步生成对话、音乐和音效的模型。

image.png

【AiBase提要:】

🔥 谷歌推出旗舰视频生成模型 Veo3,支持文本转视频与同步音频生成。

💰 Veo3的价格较高,720p 视频每秒0.75美元,可能带来高昂成本。

🚀 Veo3主要应用于专业领域,如 Cartwheel 和游戏工作室 Volley 的项目中。

5、首个直播流扩散AI模型MirageLSD震撼发布,实时视频转换开启无限可能!

MirageLSD作为全球首个人工智能直播流扩散模型,凭借其超低延迟和实时视频转换能力,为直播、游戏开发、动画制作等场景带来了革命性的变化。该技术突破了传统视频生成模型的时延和长度限制,同时具备简单交互和高度灵活性,展现了巨大的应用潜力。

【AiBase提要:】

✨ MirageLSD实现了24帧/秒的运行速度和小于40毫秒的响应延迟,打破了传统视频生成模型的瓶颈。

🕹️ 支持手势控制和连续提示编辑,用户可实时改变视频中的外观、场景或服装,降低技术门槛。

🚀 在游戏开发领域展现出惊人潜力,开发者可在30分钟内快速构建一款游戏,并由模型自动处理所有图形效果。

详情链接:https://mirage.decart.ai/

6、VSCode的AI编程利器 Traycer,处理大型代码库表现出色

Traycer是一款专为Visual Studio Code设计的AI编程助手工具,通过智能任务拆解、代码规划与实时分析能力,显著提升了开发者的编码效率。其多代理协作和与VSCode Agent模式的高度兼容性,使其在处理复杂项目时表现尤为出色。

【AiBase提要:】

🧠 任务拆解与规划:根据高级任务描述生成详细的编码计划。

🔄 多代理协作:支持多个AI代理异步执行任务,提升复杂项目的处理效率。

🔍 实时代码分析:持续跟踪代码库,识别潜在错误并提出优化建议。

详情链接:https://traycer.ai

7、ART框架发布!用Python一键训练AI Agent,邮件搜索到游戏操控全能搞定!

文章介绍了ART框架的发布及其在强化学习领域的应用价值。该框架为开发者提供了便捷的工具,支持多种语言模型,并适用于多场景任务,如邮件检索和游戏开发。其模块化设计和易用性使得中小型团队和个人开发者也能快速构建高性能Agent。

【AiBase提要:】

🧠 ART框架通过集成GRPO技术,提升AI Agent性能,使其能从经验中学习并优化任务执行。

📦 框架支持多种语言模型,如Qwen2.5、Qwen3、Llama和Kimi,提供广泛的选择。

🚀 开发者可轻松集成ART,通过简单命令实现强化学习功能,降低使用门槛。

详情链接:https://github.com/openpipe/art

8、5.63%错误率创历史新低:NVIDIA AI推出商用级超高速语音识别模型Canary-Qwen-2.5B

NVIDIA推出的Canary-Qwen-2.5B模型在自动语音识别和语言处理领域实现了重大突破,以5.63%的词错率登顶Hugging Face OpenASR排行榜。该模型结合了高效的转录与语言理解能力,支持直接从音频执行摘要和问答等任务,具有广泛的商业应用潜力。

image.png

【AiBase提要:】

🧠 技术突破:统一语音理解与语言处理,实现单一模型架构。

⚡ 性能卓越:5.63% WER,实时处理速度达418倍,参数仅25亿。

💼 应用广泛:适用于企业转录、知识提取、会议总结及合规文档处理等场景。

详情链接:https://huggingface.co/nvidia/canary-qwen-2.5b

9、Mistral AI 推出新功能 Le Chat,全面追赶 ChatGPT

Mistral AI 的 Le Chat 新功能包括深度研究模式、语音交互和高级图像编辑,旨在提升用户体验并挑战 OpenAI 的 ChatGPT。其语音识别基于 Voxtral 模型,具备自然、低延迟的特性,而图像编辑功能在实际使用中表现出色。

image.png

【AiBase提要:】

🧠 **深度研究模式**:快速生成结构化研究报告,帮助用户追踪市场趋势和撰写商业策略书。

🗣️ **语音交互功能**:基于 Voxtral 模型实现自然、低延迟的语音识别,便于用户随时随地获取信息。

🎨 **高级图像编辑**:通过简单提示即可创建和编辑图像,表现优于 OpenAI 的产品。

10、百度小度上线首个支持与物理世界交互的MCP Server

百度小度上线首个支持与物理世界交互的MCP Server,为AI应用开发带来全新变革,引领行业迈向“万物智能互联”新时代。

image.png

【AiBase提要:】

💡小度上线首个支持与物理世界交互的MCP Server,实现终端设备与核心IoT能力的MCP化升级。

🌐小度开放平台推出两大核心服务,降低开发者门槛,提升智能设备操控效率。

🚀小度MCP Server推动智能家居从“单点控制”向“主动服务”进化,开启“全民智能开发”新纪元。

详情链接:https://dueros.baidu.com/dbp/mcp/console

11、Lightricks 发布 LTXV 模型更新:图像到视频生成突破60秒

Lightricks 推出的 LTXV 模型实现了从图像生成长达60秒高质量视频的突破,采用自回归流式架构和多尺度渲染技术,支持实时控制与创作灵活性,并在消费级 GPU 上高效运行。

【AiBase提要:】

🎥 LTXV 支持生成最长60秒的高质量 AI 视频,打破行业常规限制。

⚙️ 引入动态场景控制功能,允许用户实时调整视频内容细节。

⚡ 高效运行于消费级 GPU,显著降低计算成本,适合广泛创作者使用。

12、LTX-Video13B发布!30倍速生成高清视频,开源AI让创作无界限!

LTX-Video13B凭借多尺度渲染技术、高效生成速度和开源特性,为创作者提供了强大的视频生成工具,显著提升了视频的连贯性和细节表现。

image.png

【AiBase提要:】

🚀 多尺度渲染技术提升生成速度与画质,支持消费级GPU运行。

🎨 支持多种视频生成模式,提供精准控制与创意灵活性。

🌐 开源模型赋能开发者,降低使用门槛并推动AI民主化。

详情链接:https://ltx.studio

举报

  • 相关推荐
  • 月之暗面通用型本地Agent Kimi Work宣布内测

    月之暗面在6月3日宣布,一款名为Kimi Work的通用型本地Agent正式开启内测。该产品随Kimi最新的测试版Mac和Windows客户端一同推出,主要面向知识工作者群体。 Kimi Work的底层由一套称为Kimi Code的内核驱动,负责提供本地Agent所需的基础能力,包括安装和使用各类技能、执行定时任务等。在此基础上,Kimi Work继承了在线版Kimi Agent已经具备的专业技能,例如建站和PPT制作,同时接入了

  • 月之暗面宣布Kimi Work内测:知识工作者的通用型本地Agent来了

    月之暗面宣布Kimi Work开启内测,这是一款面向知识工作者的通用型本地Agent,随Kimi最新测试版客户端推出。其核心是Kimi Code,支持安装技能、运行定时任务等基础能力,并继承了在线版Agent的建站、PPT等专业Skills及金融、科研等数据库,内置Kimi WebBridge方案。Kimi Work支持Agent集群,可自主创建最多300个子Agent团队,用户只需用自然语言描述目标,即可自动拆解任务、并行执行、调用工具等,最终交付文档、表格等工作产物,覆盖办公、研究等多种场景,使AI从对话助手走向工作执行者。

  • AI日报:阿里上线首个官方大模型NBA Chat; Ideogram4.0开源发布;OpenAI升级ChatGPT记忆系统

    今日AI领域动态:Ideogram 4.0开源发布,93亿参数打造最强文字生成AI,提升海报与品牌营销创作;OpenAI升级ChatGPT记忆系统,算力降至1/5,解决过时与准确性痛点;腾讯文档推出行业首创“人机双写”原生编辑器;xAI发布Grok Imagine Video 1.5,支持图片转视频;豆包回应AI识别野生蘑菇误判,强调仅供参考;知乎Q1扭亏为盈,AI短剧成增长点;腾讯云ADP 4.0新增Claw模式,提升企业Agent构建效率;NBA中国与阿里推出首个官方大模型“NBA Chat”。

  • AI日报:快手App上线AI购物助手;Kimi Work开启内测;微信互联多厂商推A2A助手

    本期AI日报聚焦多项创新:快手App上线AI购物助手,提升导购效率;月之暗面推出本地Agent工具Kimi Work,助力知识工作者;微信与多家手机厂商合作A2A助手,提升操作效率;豆包计划推出付费专业版,提供六大垂直服务;亚马逊App新增AI生成图片功能,深化视觉搜索;中兴通讯与腾讯达成战略合作,AI云电脑搭载原生Work Buddy;谷歌AI Edge Gallery登陆Mac,支持本地离线运行大模型;红魔游戏平板5 Pro搭载185Hz高刷屏,集成豆包大模型。

  • 杨植麟现身后,Kimi又融资140亿

    投资界获悉,月之暗面(Kimi)即将完成新一轮20亿美元(约合人民币140亿元)融资,投后估值破200亿美元(约合人民币1400亿元),本轮融资由美团龙珠领投,中国移动、CPE源峰等参投,另有多家老股东加注。 至此,Kimi累计融资额已超376亿元人民币,成为中国大模型创业公司中累计融资最多的公司;全年ARR收入也从3月初突破1亿美元,到4月超过2亿美元,付费用户订阅和API调用成为主�

  • AI日报:千问全面开放第三方Agent与Skill;字节开源统一框架 Bernini;OpenAI 推出 Sites 功能

    AI日报今日要点:1. 阿里千问全面开放第三方Agent与Skill,瑞幸、东航等首批接入,升级为"超级Agent"个人助手;2. 字节跳动开源Bernini框架,通过"先理解、再生成"机制解决视频编辑画面失控问题;3. OpenAI推出Sites功能,可将创意秒变互动网站;4. 微软Win11隐藏AI卸载选项,可释放超2.5GB硬盘空间;5. DeepSeek首轮融资估值或达4000亿元,腾讯、宁德时代拟参投;6. OpenAI发布六行业Codex工作流插件;7. 谷歌推出Android虚假来电检测功能;8. 亚马逊Ring门铃人脸识别功能遭集体诉讼。

  • AI日报:小米上线招聘Agent;腾讯发布AI创作平台Craft;抖音严打AIGC违规带货

    今日AI领域亮点:小米上线招聘Agent,基于大模型提升校园招聘效率;腾讯发布AI游戏创作平台“代号Craft”,支持自然语言一键生成游戏世界;科大讯飞推出讯飞AI眼镜,内置GlassClaw助手,售价4299元;抖音生活服务公布“消保”成绩单,先行赔付2.4亿元,严打AIGC违规带货;国产具身大模型Wall-OSS-0.5开源,实现零样本部署;阿里语音大模型Fun-Realtime-TTS-Preview获全球第五、国产第一;ElevenLabs发布Music v2,支持多风格切换与商业授权;OpenAI扩大广告平台访问,向更多广告主开放免费ChatGPT精准投放。

  • 腾讯云ADP4.0发布:推出Claw模式,助力企业Agent规模化落地

    腾讯云在2026年AI产业应用大会上发布智能体开发平台ADP 4.0,升级为企业级AgentOps平台。新版本新增支持Agentic Loop的Claw模式,通过Connector、Skills、知识库、MCP和Agent Portal,打通企业级Agent构建、连接、分发到治理的全生命周期。Claw模式可处理复杂长链路任务,支持自然语言描述需求、自动生成提示词和配置工作流。平台还强化了安全治理,包括权限管理、Skills全生命周期管控和Agent观测能力,并与ISV伙伴共建垂直行业Agent,推动规模化落地。

  • AI日报:腾讯发布设计智能体Ardot;千问5月20日将发布重大模型;OpenAI推出ChatGPT个人理财工具

    本期AI日报聚焦八大热点:腾讯发布AI设计平台Ardot,一句话生成可编辑设计稿并一键转代码;通义千问“重量级”大模型将于5月20日阿里云峰会亮相,实现全面升级;AI大模型在基层警务中落地,豆包助力破获柴油盗窃案;Google I/O大会将推出Gemini 4.0等创新产品;索尼澄清Xperia 1XIII的AI相机助手仅提供拍摄建议;OpenAI推出ChatGPT个人理财工具,结合GPT-5.5支持连接银行账户;中国大模型周调用量连续三周超越美国,腾讯Hy3 preview以2.66万亿Token领先;红果短剧回应取消AI仿真人剧本保底传闻,称部分剧本仍保留保底政策。

  • 字节跳动AI Agent平台扣子Coze上线3.0版本:支持Openclaw、Claude Code一键接入

    字節跳動旗下AI開發平台扣子(Coze)發布3.0版本,實現手機、電腦及網頁全端更新。新版基於AI團隊協作架構,支援Agent創建、接入與調度,並可將任務放入項目空間拆解分配。用戶能自定義Agent團隊,接入本地工具如Claude Code、Codex CLI等,或使用雲端Agent長期在線協作。扣子3.0還提供行業技能包、職業模板及項目空間功能,支援多Agent分工協作,深化編程與視頻項目處理能力,實現多端協同工作體驗。

今日大家都在搜的词: