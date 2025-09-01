首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

2025-09-01

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

1、阶跃发布端到端语音大模型Step-Audio 2 mini

阶跃星辰发布了最强开源端到端语音大模型Step-Audio2mini，其在多个国际基准测试中取得SOTA成绩，表现出卓越的音频理解、语音识别、跨语种翻译和对话能力。该模型采用创新架构设计，突破传统ASR+LLM+TTS三级结构，实现原始音频输入到语音响应输出的直接转换，并引入链式思维推理与强化学习联合优化，提升对副语言信息的理解和自然回应能力。

image.png

【AiBase提要:】

🔥 Step-Audio2mini在多个国际基准测试中取得SOTA成绩，性能超越Qwen-Omni、Kimi-Audio等开源模型。

🧠 模型采用真端到端多模态架构，突破传统ASR+LLM+TTS三级结构，实现更简洁、低时延的音频处理。

💡 引入链式思维推理与强化学习联合优化，提升对情绪、语调、音乐等副语言信息的理解和自然回应能力。

详情链接:https://github.com/stepfun-ai/Step-Audio2

2、9月1日AI内容新规正式生效！不标识就违法

《人工智能生成合成内容标识办法》于9月1日起强制实施，标志着中国AI内容治理进入制度化、规范化的新阶段。新规要求所有AI生成内容必须进行显式和隐式标识，以提升信息透明度并防止虚假信息传播。

image.png

【AiBase提要:】

✅ 显式标识要求AI生成内容在文本、图片、视频和音频中明确标注，打破AI内容的隐身术。

🔍 隐式标识通过数字指纹技术嵌入元数据，实现内容溯源和监管能力提升。

⚖️ 违规后果严重，包括限流、整改、下架及法律风险，推动AI产业规范发展。

3、美团推出开源大模型LongCat:旨在赋能开发者，加速AI应用落地

美团推出的开源大模型LongCat具有强大的技术实力，通过创新的混合专家架构实现了高效的计算性能，并在多个基准测试中表现出色，为开发者提供了强大的工具。

image.png

【AiBase提要:】

🧠 LongCat-Flash拥有560亿参数，采用混合专家（MoE）架构，动态激活部分参数以优化计算效率。

🚀 支持超过100个标记每秒的推理处理能力，具备低延迟和高扩展性。

📊 在MMLU、数学推理等任务中表现优异，展示了其在实际应用中的潜力。

详情链接:https://longcat.chat/

4、上海AI实验室发布多模态大模型书生·万象 InternVL3.5

上海AI实验室发布了多模态大模型InternVL3.5，通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构，实现了推理能力、部署效率与通用能力的全面升级。该模型在多个基准测试中表现优异，超越了GPT-5和Claude-3.7-Sonnet等主流模型。

image.png

【AiBase提要:】

✨ InternVL3.5采用级联式强化学习框架，显著提升了推理性能。

🖼️ 模型支持多种视觉分辨率，并优化了响应速度。

🚀 提供多种参数规模模型，满足不同资源需求场景。

详情链接:https://github.com/OpenGVLab/InternVL

5、腾讯ARC开源音频模型 AudioStory：用大语言模型生成长音频

腾讯ARC团队推出的AudioStory模型，结合了大语言模型和音频生成技术，能够生成结构化且具有时间一致性的长篇叙事音频。该模型在指令跟随能力和音频质量方面表现出色，适用于视频配音和长音频生成等多种场景。

image.png

【AiBase提要:】

🎧 AudioStory 是一款基于大语言模型的长篇叙事音频生成模型，能够处理多种音频任务。

📊 模型具备强大的指令跟随能力，可生成连贯的音频叙事，提升用户体验。

🛠️ 团队已发布推理代码，并展示多个应用案例，展现其在视频配音和长音频生成上的优势。

详情链接:https://github.com/TencentARC/AudioStory

6、OpenAI震撼发布GPT-realtime！语音AI革命来了，人机对话真假难辨

OpenAI推出的GPT-realtime语音模型在自然流畅度和情感表达方面实现了重大突破，能够精准模拟人类语调、情感波动和语速变化。该模型不仅具备多模态处理能力，还能实时调整语音风格以适应不同场景需求，为AI语音交互带来了革命性的变化。

image.png

【AiBase提要:】

🚀 GPT-realtime实现了前所未有的自然语音交互体验，精准还原人类语音细节。

🧠 模型具备多模态处理能力，结合图像与语音信息进行综合分析和响应。

💡 支持多种语音风格切换，满足不同场景下的个性化语音交互需求。

7、Meta 与 UCSD 推出 DeepConf：AI 推理准确率达 99.9%，计算成本降低 85%

Meta与加州大学圣地亚哥分校（UCSD）合作推出的DeepConf技术，在高难度推理任务中实现了99.9%的准确率，并将计算资源消耗降低了84.7%。该技术通过引入“置信度”机制，使AI能够动态调整解题策略，从而提高推理效率和准确性。

image.png

【AiBase提要:】

🔍 DeepConf 技术在高难度推理任务中实现了99.9% 的准确率。

💡 计算资源消耗减少了84.7%，大幅降低了运算成本。

🚀 通过 “置信度” 机制，AI 能够动态调整解题策略，提升推理效率。

详情链接:https://arxiv.org/abs/2508.15260

8、马斯克承认xAI代码库遭窃，前员工转投 OpenAI！

马斯克承认xAI代码库遭窃，前员工Xuechen Li被指控窃取商业机密并转投OpenAI，事件引发科技界广泛关注。

【AiBase提要:】

💻 前员工Xuechen Li被指控窃取xAI的商业机密并转投OpenAI。

🔒 xAI要求法院禁止Li在OpenAI工作，并归还被盗数据。

🚀 Li离职前套现近700万美元，可能为OpenAI节省数十亿美元研发费用。

9、阿里巴巴 Qwen 团队发布下一代 GUI 自动化框架 Mobile-Agent-v3 和 GUI-Owl

阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3 和 GUI-Owl，旨在解决图形用户界面（GUI）自动化中的挑战。这些工具通过多模态模型和多代理协作，提升了任务理解和执行的能力，展现出强大的跨平台任务完成能力，标志着阿里巴巴在通用 GUI 自动化领域的重大进展。

image.png

【AiBase提要:】

🧠 GUI-Owl 是阿里巴巴推出的多模态代理模型，集成感知、推理和执行能力，适应复杂 GUI 环境。

🤖 Mobile-Agent-v3 框架实现多代理协作，通过动态更新计划提升任务执行效率。

📊 这两款产品在 GUI 自动化基准测试中表现出色，标志着阿里巴巴在自动化领域的重要突破。

详情链接:https://arxiv.org/abs/2508.15144

10、微软推出Copilot Labs，首个实验性工具“Copilot音频表达”上线

微软推出了全新的实验性AI中心Copilot Labs，旨在邀请用户参与AI的创新与发展。其首个工具是“Copilot音频表达”，能够将书面文本转化为自然流畅的语音旁白，并支持情感和故事模式，让用户拥有高度控制权。

QQ20250901-104501.png

【AiBase提要:】

🌟 Copilot Labs是一个邀请用户参与AI创新的平台，标志着微软在AI领域的进一步探索。

🔊 “Copilot音频表达”是首个实验性工具，可将文本转换为自然语音，并支持情感和故事模式。

🌐 该工具在全球范围内免费开放，但部分功能需要登录Microsoft账户并拥有Copilot Pro订阅。

详情链接:https://copilot.microsoft.com/labs/experiments/audio-expression

11、小红书自动化神器xiaohongshu-mcp上线！AI助力内容创作，解放你的双手！

xiaohongshu-mcp这一基于MCP协议的开源工具，能够实现小红书平台的自动化登录、内容发布和数据获取功能。该工具通过与AI客户端集成，简化了操作流程，并具备良好的扩展性，适合内容创作者和开发者使用。

【AiBase提要:】

🔐 智能登录，持久化体验：首次扫码登录后，后续操作无需重复登录。

🖼️ 图文发布领跑，未来功能可期：目前支持图文内容自动化发布，未来计划扩展视频发布和数据分析功能。

🛠️ 开发者友好，生态开放：基于Go语言开发，代码结构清晰，易于二次开发，支持GitHub克隆部署。

详情链接:https://github.com/xpzouying/xiaohongshu-mcp

