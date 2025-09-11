欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://app.aibase.com/zh

1、快手推出 AI 视频制作助手 Kwali，轻松一语生成短视频!

快手推出的 Kwali AI 视频制作助手通过云端多 Agent 框架，简化了视频制作流程。用户只需输入需求，Kwali 即可自动拆解卖点、受众和情境标签，并生成脚本、匹配镜头、剪辑合成，大幅提升了效率。

【AiBase提要:】 🌟 Kwali 是快手推出的 AI 视频制作助手，帮助用户快速生成高质量短视频。 🎬 多 Agent 系统自动处理脚本、素材和剪辑，提升视频制作效率。 💰 降低视频制作成本，商家可以更快推向市场并提升资金回笼。 详情链接:https://kc.kuaishou.com/kwali

2、字节跳动推出 USO 模型，打破 AI 图像生成的 “风格与主题” 对立

字节跳动推出的 USO 模型成功解决了风格驱动和主题驱动图像生成之间的矛盾，通过创新的训练方式和庞大的数据集，提升了图像生成的灵活性与精准度。该模型已全面开源，为数字艺术和商业设计带来了新的可能。

【AiBase提要:】 🎨 USO 模型打破了风格与主题的对立，实现了两者的完美结合。 📊 USO 模型通过创新的训练方式和庞大的数据集，提升了图像生成的灵活性与精准度。 🌍 USO 已全面开源，鼓励开发者探索其在创意内容和商业设计中的应用。 详情链接:https://github.com/bytedance/USO

3、微软推出全新 Copilot Audio音频模式，体验更具个性化的语音交互

微软推出了全新的Copilot Audio音频模式，该模式基于自主研发的MAI-Voice-1模型，提供情感、故事和脚本三种语音模式，以满足不同场景下的表达需求。同时，该功能还提供了丰富的声音和风格选择，增强了用户的交互体验。此外，微软通过推出MAI-1模型并将其集成到Office应用中，进一步推动了其在AI领域的独立发展。

【AiBase提要:】 🎭 新增的Copilot Audio音频模式支持情感、故事和脚本三种语音模式，满足不同场景需求。 🎙️ 提供多种声音和风格选择，如莎士比亚朗读和体育评论，增强交互趣味性。 🔍 微软推出MAI-1模型并集成到Office应用中，显示其在AI领域寻求独立发展的决心。 详情链接:https://copilot.microsoft.com/labs/audio-expression

4、Stability AI发布 Stable Audio2.5，专业音频生成技术再升级

Stability AI推出了最新音频生成模型 Stable Audio2.5，该模型能够快速生成高质量、可定制的音频作品，支持复杂的音乐创作，并引入了音频修补功能。同时，它与 WPP 合作，致力于提供一致的品牌音频识别服务。

【AiBase提要:】 🎵 新模型 Stable Audio2.5 支持生成复杂的音乐作品，快速生成最长三分钟的音轨。 🖌️ 引入音频修补功能，用户可以上传音频文件，让 AI 完成或扩展录音。 🤝 Stability AI 与 WPP 等大型客户合作，致力于提供一致的品牌音频识别服务。

5、阿联酋推出全球最快开源 AI 模型 K2 Think，拥有 320 亿个参数

K2Think 是由阿联酋穆罕默德・本・扎耶德人工智能大学和 G42AI 联合推出的一款开源大语言模型，以其 320 亿参数和每秒 2000 个 tokens 的生成速度而闻名。它在复杂数学、编程和科学基准测试中表现出色，并采用了高效的推理设计，能够在较少的计算资源下实现优秀性能。此外，K2Think 提供了完整的训练数据、模型权重和部署基础设施，支持商业应用，并被视为阿联酋在全球 AI 领域影响力增长的标志。

【AiBase提要:】 🧠 K2Think 是阿联酋推出的全球最快开源 AI 模型，拥有 320 亿个参数。 ⚡ 每秒可生成 2000 个 tokens，速度远超其他模型。 🚀 该模型专注于复杂推理，设计上高效且开放，支持广泛商业应用。 详情链接:https://www.k2think.ai/guest

6、微信公众号上线智能回复功能：数字分身7*24小时陪聊

微信公众号上线智能回复功能，通过人工智能技术为运营者提供高效、个性化的互动服务，提升了用户体验和公众号的运营效率。

【AiBase提要:】 🤖 公众号运营者可轻松开启智能回复功能，提升互动效率。 💡 数字分身能学习历史文章和语言风格，提供个性化回复。 🌐 智能回复支持7*24小时在线，增强用户黏性和互动体验。

7、OpenAI推出ChatGPT开发者模式，首次支持AI直接控制外部工具

OpenAI推出的ChatGPT开发者模式标志着AI助手从对话工具向自动化代理的重要转型，支持AI直接控制外部工具，提升开发效率与安全性。

【AiBase提要:】 🧠 ChatGPT开发者模式首次支持AI直接控制外部工具，实现自动化代理功能。 🔧 开发者可创建自定义连接器，让ChatGPT执行写入操作和复杂任务。 🔒 功能加入多层安全防护措施，确保操作的准确性和安全性。 详情链接:https://platform.openai.com/docs/mcp https://platform.openai.com/docs/guides/developer-mode

8、字节Seed推出全新 AgentGym-RL 框架:提升大规模语言模型的决策能力

文章介绍了字节跳动Seed研究团队推出的AgentGym-RL框架，该框架专注于通过强化学习训练大规模语言模型代理，使其能够进行多轮互动决策。同时，他们还提出了一种名为ScalingInter-RL的训练方法，以优化代理的学习效果。实验结果表明，AgentGym-RL框架在多个任务中表现优于商业模型，具有与顶尖专有大模型相当的能力。

【AiBase提要:】 🌐 AgentGym-RL 框架提供了一种新方法，旨在通过强化学习训练大规模语言模型代理，提升其复杂任务的决策能力。 🔄 ScalingInter-RL 训练方法通过阶段性调整交互，帮助代理在训练中实现有效的探索与利用平衡。 🏆 实验结果显示，AgentGym-RL 框架显著提升了代理的表现，超越了多个商业模型，具备了与顶尖专有大模型相当的能力。 详情链接:https://agentgym-rl.github.io/

9、重磅！月之暗面开源革命性中间件 “Checkpoint Engine”，为 LLM 推理引擎带来新生机！

月之暗面开源的 'Checkpoint Engine' 中间件，专为大规模语言模型（LLM）推理引擎设计，实现了高效的原地热更新。其性能卓越，可在20秒内完成1万亿参数模型的权重同步，并支持数千个GPU并行处理，显著降低停机时间，提升训练效率。

【AiBase提要:】 🚀 Checkpoint Engine 实现了LLM推理引擎中模型权重的高效实时更新。 ⚡ 支持数千个GPU并行处理，大幅减少强化学习训练中的停机时间。 🌐 开放设计便于未来扩展至其他框架，如SGLang，推动技术进步。

10、B 站开源文本转语音模型IndexTTS-2.0，情感与时长可控

B站开源了其自主研发的文本转语音系统IndexTTS-2.0，该系统具备情感可控和时长可调的特点，标志着零样本TTS技术的实用化迈出了重要一步。通过引入时间编码机制和音色与情感解耦建模，提升了语音合成的自然性和表现力，并广泛应用于AI配音、有声读物、视频翻译等多个场景。

【AiBase提要:】 🕒 引入时间编码机制，提升语音时长控制精度。 🎭 音色与情感解耦建模，增强语音表现力。 🌍 支持全球内容出海，实现跨语言视频本地化体验。 详情链接:https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo

11、Replit推出更自主的Agent 3，自主性提高了10倍、编程效率飙升!

Replit推出的Agent3是一款具有更高自主性的智能编程助手，其在代码生成、调试和项目管理方面的能力显著提升，能够根据用户需求生成高质量代码，并主动提供优化建议，从而提高开发效率。

【AiBase提要:】 🧠 Agent3能够根据自然语言需求生成代码，并主动分析项目上下文，提出优化建议。 ⚙️ 支持多种编程语言，具备全流程辅助能力，包括代码生成、调试和项目管理。 🚀 提升开发效率，减少重复工作，专注于创造性问题解决。 详情链接:https://replit.com/agent3

