首页 > 原创 > 关键词  > 正文

A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

2025-07-18 16:15 · 稿源:aibase

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、月之暗面Kimi开放平台上线Kimi Playground

Kimi Playground的发布标志着AI技术从对话助手向智能助理的转变,其工具调用功能使AI能够主动解决问题。平台为开发者提供了一站式工具调用体验,支持多种工具接入和调试,提升了开发效率。

image.png

【AiBase提要:】

✨ Kimi Playground通过工具调用功能让AI主动解决问题,实现从被动信息提供者到智能助手的转变。

🛠️ 提供直观的工具调用界面,支持内置和第三方工具接入,提升开发效率。

📊 在数据分析和旅游行程规划等场景中展现出强大的自动化能力,简化复杂任务。

详情链接:https://platform.moonshot.cn/playground

2、OpenAI重磅发布ChatGPT Agent:会主动思考,浏览、购物、做PPT!

OpenAI正式推出ChatGPT Agent,标志着人工智能从对话助手向自主任务执行者的重大飞跃。该工具整合了Operator和Deep Research功能,能够通过虚拟浏览器、终端和API完成复杂任务,提升用户效率。

【AiBase提要:】

🚀 ChatGPT Agent具备自主浏览、点击、填写表单及执行代码的能力,可处理多样任务如婚礼服装挑选或旅行行程制定。

📈 在多项基准测试中表现优异,准确率远超竞争对手,展现出强大的实用性。

🔒 强调安全性,涉及高后果操作时需用户授权,并实施严格防护措施以防止恶意攻击。

详情链接:https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/

3、Suno发布v4.5+ 推出人声替换功能,可将原唱人声换为其他人声音

Suno v4.5+ 推出了多项创新功能,包括人声替换、伴奏生成和灵感激发功能,显著提升了音乐创作的灵活性和个性化体验。同时,音质和创作体验也得到了全面优化,为音乐创作者提供了更强大的工具。

【AiBase提要:】

🎧 人声替换功能允许用户上传伴奏或使用内置乐器伴奏,并输入歌词生成完整歌曲。

🎵 Add Instrumentals功能可以将用户的歌声或哼唱转化为完整的音乐作品。

🎼 Inspire功能从播放列表中汲取灵感,快速生成符合用户审美的新歌曲。

4、AI 视频成本新高?Google Veo3通过 Gemini API 现已上线

谷歌的旗舰级视频生成模型 Veo3已通过 Gemini API 向开发者开放,提供文本转视频功能并支持同步音频生成。这标志着 AI 视频制作进入新阶段,但同时也伴随着较高的成本。Veo3是首款能通过单个文本提示生成高分辨率视频并同步生成对话、音乐和音效的模型。

image.png

【AiBase提要:】

🔥 谷歌推出旗舰视频生成模型 Veo3,支持文本转视频与同步音频生成。

💰 Veo3的价格较高,720p 视频每秒0.75美元,可能带来高昂成本。

🚀 Veo3主要应用于专业领域,如 Cartwheel 和游戏工作室 Volley 的项目中。

5、首个直播流扩散AI模型MirageLSD震撼发布,实时视频转换开启无限可能!

MirageLSD作为全球首个人工智能直播流扩散模型,凭借其超低延迟和实时视频转换能力,为直播、游戏开发、动画制作等场景带来了革命性的变化。该技术突破了传统视频生成模型的时延和长度限制,同时具备简单交互和高度灵活性,展现了巨大的应用潜力。

【AiBase提要:】

✨ MirageLSD实现了24帧/秒的运行速度和小于40毫秒的响应延迟,打破了传统视频生成模型的瓶颈。

🕹️ 支持手势控制和连续提示编辑,用户可实时改变视频中的外观、场景或服装,降低技术门槛。

🚀 在游戏开发领域展现出惊人潜力,开发者可在30分钟内快速构建一款游戏,并由模型自动处理所有图形效果。

详情链接:https://mirage.decart.ai/

6、VSCode的AI编程利器 Traycer,处理大型代码库表现出色

Traycer是一款专为Visual Studio Code设计的AI编程助手工具,通过智能任务拆解、代码规划与实时分析能力,显著提升了开发者的编码效率。其多代理协作和与VSCode Agent模式的高度兼容性,使其在处理复杂项目时表现尤为出色。

【AiBase提要:】

🧠 任务拆解与规划:根据高级任务描述生成详细的编码计划。

🔄 多代理协作:支持多个AI代理异步执行任务,提升复杂项目的处理效率。

🔍 实时代码分析:持续跟踪代码库,识别潜在错误并提出优化建议。

详情链接:https://traycer.ai

7、ART框架发布!用Python一键训练AI Agent,邮件搜索到游戏操控全能搞定!

文章介绍了ART框架的发布及其在强化学习领域的应用价值。该框架为开发者提供了便捷的工具,支持多种语言模型,并适用于多场景任务,如邮件检索和游戏开发。其模块化设计和易用性使得中小型团队和个人开发者也能快速构建高性能Agent。

【AiBase提要:】

🧠 ART框架通过集成GRPO技术,提升AI Agent性能,使其能从经验中学习并优化任务执行。

📦 框架支持多种语言模型,如Qwen2.5、Qwen3、Llama和Kimi,提供广泛的选择。

🚀 开发者可轻松集成ART,通过简单命令实现强化学习功能,降低使用门槛。

详情链接:https://github.com/openpipe/art

8、5.63%错误率创历史新低:NVIDIA AI推出商用级超高速语音识别模型Canary-Qwen-2.5B

NVIDIA推出的Canary-Qwen-2.5B模型在自动语音识别和语言处理领域实现了重大突破,以5.63%的词错率登顶Hugging Face OpenASR排行榜。该模型结合了高效的转录与语言理解能力,支持直接从音频执行摘要和问答等任务,具有广泛的商业应用潜力。

image.png

【AiBase提要:】

🧠 技术突破:统一语音理解与语言处理,实现单一模型架构。

⚡ 性能卓越:5.63% WER,实时处理速度达418倍,参数仅25亿。

💼 应用广泛:适用于企业转录、知识提取、会议总结及合规文档处理等场景。

详情链接:https://huggingface.co/nvidia/canary-qwen-2.5b

9、Mistral AI 推出新功能 Le Chat,全面追赶 ChatGPT

Mistral AI 的 Le Chat 新功能包括深度研究模式、语音交互和高级图像编辑,旨在提升用户体验并挑战 OpenAI 的 ChatGPT。其语音识别基于 Voxtral 模型,具备自然、低延迟的特性,而图像编辑功能在实际使用中表现出色。

image.png

【AiBase提要:】

🧠 **深度研究模式**:快速生成结构化研究报告,帮助用户追踪市场趋势和撰写商业策略书。

🗣️ **语音交互功能**:基于 Voxtral 模型实现自然、低延迟的语音识别,便于用户随时随地获取信息。

🎨 **高级图像编辑**:通过简单提示即可创建和编辑图像,表现优于 OpenAI 的产品。

10、百度小度上线首个支持与物理世界交互的MCP Server

百度小度上线首个支持与物理世界交互的MCP Server,为AI应用开发带来全新变革,引领行业迈向“万物智能互联”新时代。

image.png

【AiBase提要:】

💡小度上线首个支持与物理世界交互的MCP Server,实现终端设备与核心IoT能力的MCP化升级。

🌐小度开放平台推出两大核心服务,降低开发者门槛,提升智能设备操控效率。

🚀小度MCP Server推动智能家居从“单点控制”向“主动服务”进化,开启“全民智能开发”新纪元。

详情链接:https://dueros.baidu.com/dbp/mcp/console

11、Lightricks 发布 LTXV 模型更新:图像到视频生成突破60秒

Lightricks 推出的 LTXV 模型实现了从图像生成长达60秒高质量视频的突破,采用自回归流式架构和多尺度渲染技术,支持实时控制与创作灵活性,并在消费级 GPU 上高效运行。

【AiBase提要:】

🎥 LTXV 支持生成最长60秒的高质量 AI 视频,打破行业常规限制。

⚙️ 引入动态场景控制功能,允许用户实时调整视频内容细节。

⚡ 高效运行于消费级 GPU,显著降低计算成本,适合广泛创作者使用。

12、LTX-Video13B发布!30倍速生成高清视频,开源AI让创作无界限!

LTX-Video13B凭借多尺度渲染技术、高效生成速度和开源特性,为创作者提供了强大的视频生成工具,显著提升了视频的连贯性和细节表现。

image.png

【AiBase提要:】

🚀 多尺度渲染技术提升生成速度与画质,支持消费级GPU运行。

🎨 支持多种视频生成模式,提供精准控制与创意灵活性。

🌐 开源模型赋能开发者,降低使用门槛并推动AI民主化。

详情链接:https://ltx.studio

举报

  • 相关推荐
  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • AI日报:Sora免费额度要缩水;月之暗面发布Kimi Linear架构;Canva免费放出Affinity专业设计套件

    本期AI日报聚焦多项技术突破:OpenAI调整Sora免费额度并推出付费计划,标志视频生成进入商业化;Figma收购Weavy推出AI设计工具;OpenAI发布基于GPT-5的安全研究助手Aardvark;全球首款AI字体生成器Dr Fonts上线;中国信通院发布大模型一体机应用报告;月之暗面推出Kimi Linear架构实现推理速度6倍提升;Canva免费发布Affinity设计套件挑战Adobe;Chrome新增Gemini驱动的图像生成与深度搜索功能。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • GEO如何改变ChatGPT搜索和Perplexity的游戏规则

    本文对比ChatGPT与Perplexity两大AI搜索平台:ChatGPT作为全能型助手,整合搜索与多任务处理,但存在信息时效性不足;Perplexity专注垂直搜索,强调引用透明与权威来源。针对AI搜索优化(GEO),提出差异化策略:面向ChatGPT需构建结构化知识库、强化品牌实体识别;面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具,通过曝光率等指标量化内容在AI生态中的可见度,并给出可落地的优化行动方案。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 如何让你的内容被 ChatGPT 优先引用?——GEO 优化实战指南

    传统SEO追求"谷歌首页排名",生成式AI时代则需追求"被AI引用"。AI模型不提供明确排名算法,更像黑箱,使内容创作者困惑。GEO优化的核心是让内容具备"可引用性":权威清晰、结构化信息、语义覆盖多维度、模型检索映射。需通过AIBase等GEO排名查询工具验证"AI曝光率",分析引用语境、竞争差距,调整内容结构以提升AI引用倾向。SEO优化机器如何找到你,GEO则优化AI如何引用你。

  • AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归

    本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。

今日大家都在搜的词: