AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

2025-09-01 15:54 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://app.aibase.com/zh

1、阶跃发布端到端语音大模型Step-Audio 2 mini

阶跃星辰发布了最强开源端到端语音大模型Step-Audio2mini，其在多个国际基准测试中取得SOTA成绩，表现出卓越的音频理解、语音识别、跨语种翻译和对话能力。该模型采用创新架构设计，突破传统ASR+LLM+TTS三级结构，实现原始音频输入到语音响应输出的直接转换，并引入链式思维推理与强化学习联合优化，提升对副语言信息的理解和自然回应能力。

【AiBase提要:】
🔥 Step-Audio2mini在多个国际基准测试中取得SOTA成绩，性能超越Qwen-Omni、Kimi-Audio等开源模型。
🧠 模型采用真端到端多模态架构，突破传统ASR+LLM+TTS三级结构，实现更简洁、低时延的音频处理。
💡 引入链式思维推理与强化学习联合优化，提升对情绪、语调、音乐等副语言信息的理解和自然回应能力。
详情链接:https://github.com/stepfun-ai/Step-Audio2

2、9月1日AI内容新规正式生效！不标识就违法

《人工智能生成合成内容标识办法》于9月1日起强制实施，标志着中国AI内容治理进入制度化、规范化的新阶段。新规要求所有AI生成内容必须进行显式和隐式标识，以提升信息透明度并防止虚假信息传播。

【AiBase提要:】
✅ 显式标识要求AI生成内容在文本、图片、视频和音频中明确标注，打破AI内容的隐身术。
🔍 隐式标识通过数字指纹技术嵌入元数据，实现内容溯源和监管能力提升。
⚖️ 违规后果严重，包括限流、整改、下架及法律风险，推动AI产业规范发展。

3、美团推出开源大模型LongCat:旨在赋能开发者，加速AI应用落地

美团推出的开源大模型LongCat具有强大的技术实力，通过创新的混合专家架构实现了高效的计算性能，并在多个基准测试中表现出色，为开发者提供了强大的工具。

【AiBase提要:】
🧠 LongCat-Flash拥有560亿参数，采用混合专家（MoE）架构，动态激活部分参数以优化计算效率。
🚀 支持超过100个标记每秒的推理处理能力，具备低延迟和高扩展性。
📊 在MMLU、数学推理等任务中表现优异，展示了其在实际应用中的潜力。
详情链接:https://longcat.chat/

4、上海AI实验室发布多模态大模型书生·万象 InternVL3.5

上海AI实验室发布了多模态大模型InternVL3.5，通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构，实现了推理能力、部署效率与通用能力的全面升级。该模型在多个基准测试中表现优异，超越了GPT-5和Claude-3.7-Sonnet等主流模型。

【AiBase提要:】
✨ InternVL3.5采用级联式强化学习框架，显著提升了推理性能。
🖼️ 模型支持多种视觉分辨率，并优化了响应速度。
🚀 提供多种参数规模模型，满足不同资源需求场景。
详情链接:https://github.com/OpenGVLab/InternVL

5、腾讯ARC开源音频模型 AudioStory：用大语言模型生成长音频

腾讯ARC团队推出的AudioStory模型，结合了大语言模型和音频生成技术，能够生成结构化且具有时间一致性的长篇叙事音频。该模型在指令跟随能力和音频质量方面表现出色，适用于视频配音和长音频生成等多种场景。

【AiBase提要:】
🎧 AudioStory 是一款基于大语言模型的长篇叙事音频生成模型，能够处理多种音频任务。
📊 模型具备强大的指令跟随能力，可生成连贯的音频叙事，提升用户体验。
🛠️ 团队已发布推理代码，并展示多个应用案例，展现其在视频配音和长音频生成上的优势。
详情链接:https://github.com/TencentARC/AudioStory

6、OpenAI震撼发布GPT-realtime！语音AI革命来了，人机对话真假难辨

OpenAI推出的GPT-realtime语音模型在自然流畅度和情感表达方面实现了重大突破，能够精准模拟人类语调、情感波动和语速变化。该模型不仅具备多模态处理能力，还能实时调整语音风格以适应不同场景需求，为AI语音交互带来了革命性的变化。

【AiBase提要:】
🚀 GPT-realtime实现了前所未有的自然语音交互体验，精准还原人类语音细节。
🧠 模型具备多模态处理能力，结合图像与语音信息进行综合分析和响应。
💡 支持多种语音风格切换，满足不同场景下的个性化语音交互需求。

7、Meta 与 UCSD 推出 DeepConf：AI 推理准确率达 99.9%，计算成本降低 85%

Meta与加州大学圣地亚哥分校（UCSD）合作推出的DeepConf技术，在高难度推理任务中实现了99.9%的准确率，并将计算资源消耗降低了84.7%。该技术通过引入“置信度”机制，使AI能够动态调整解题策略，从而提高推理效率和准确性。

【AiBase提要:】
🔍 DeepConf 技术在高难度推理任务中实现了99.9% 的准确率。
💡 计算资源消耗减少了84.7%，大幅降低了运算成本。
🚀 通过 “置信度” 机制，AI 能够动态调整解题策略，提升推理效率。
详情链接:https://arxiv.org/abs/2508.15260

8、马斯克承认xAI代码库遭窃，前员工转投 OpenAI！

马斯克承认xAI代码库遭窃，前员工Xuechen Li被指控窃取商业机密并转投OpenAI，事件引发科技界广泛关注。

【AiBase提要:】
💻 前员工Xuechen Li被指控窃取xAI的商业机密并转投OpenAI。
🔒 xAI要求法院禁止Li在OpenAI工作，并归还被盗数据。
🚀 Li离职前套现近700万美元，可能为OpenAI节省数十亿美元研发费用。

9、阿里巴巴 Qwen 团队发布下一代 GUI 自动化框架 Mobile-Agent-v3 和 GUI-Owl

阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3 和 GUI-Owl，旨在解决图形用户界面（GUI）自动化中的挑战。这些工具通过多模态模型和多代理协作，提升了任务理解和执行的能力，展现出强大的跨平台任务完成能力，标志着阿里巴巴在通用 GUI 自动化领域的重大进展。

【AiBase提要:】
🧠 GUI-Owl 是阿里巴巴推出的多模态代理模型，集成感知、推理和执行能力，适应复杂 GUI 环境。
🤖 Mobile-Agent-v3 框架实现多代理协作，通过动态更新计划提升任务执行效率。
📊 这两款产品在 GUI 自动化基准测试中表现出色，标志着阿里巴巴在自动化领域的重要突破。
详情链接:https://arxiv.org/abs/2508.15144

10、微软推出Copilot Labs，首个实验性工具“Copilot音频表达”上线

微软推出了全新的实验性AI中心Copilot Labs，旨在邀请用户参与AI的创新与发展。其首个工具是“Copilot音频表达”，能够将书面文本转化为自然流畅的语音旁白，并支持情感和故事模式，让用户拥有高度控制权。

【AiBase提要:】
🌟 Copilot Labs是一个邀请用户参与AI创新的平台，标志着微软在AI领域的进一步探索。
🔊 “Copilot音频表达”是首个实验性工具，可将文本转换为自然语音，并支持情感和故事模式。
🌐 该工具在全球范围内免费开放，但部分功能需要登录Microsoft账户并拥有Copilot Pro订阅。
详情链接:https://copilot.microsoft.com/labs/experiments/audio-expression

11、小红书自动化神器xiaohongshu-mcp上线！AI助力内容创作，解放你的双手！

xiaohongshu-mcp这一基于MCP协议的开源工具，能够实现小红书平台的自动化登录、内容发布和数据获取功能。该工具通过与AI客户端集成，简化了操作流程，并具备良好的扩展性，适合内容创作者和开发者使用。

【AiBase提要:】
🔐 智能登录，持久化体验：首次扫码登录后，后续操作无需重复登录。
🖼️ 图文发布领跑，未来功能可期：目前支持图文内容自动化发布，未来计划扩展视频发布和数据分析功能。
🛠️ 开发者友好，生态开放：基于Go语言开发，代码结构清晰，易于二次开发，支持GitHub克隆部署。
详情链接:https://github.com/xpzouying/xiaohongshu-mcp

（举报）

相关推荐

关键词：

荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

云决科技推出VITA一站式AI办公平台，结合自研AI语音鼠标，通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型，用户无需切换工具，语音即可调用文字处理、数据分析、创意设计等多元功能，实现会议纪要生成、PPT自动制作、视频一键合成等操作，节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案，整合100多个AI应用场景和200多种模板，持续优化产品功能，致力于成为职场人士提升效率的智能助手。

智能办公 AI办公平台办公效率
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

游戏语音头部平台Oopz与声网达成战略合作，聚焦游戏开黑场景中的噪音问题。双方将结合AI降噪技术，针对复杂多变噪音环境，解决降噪不彻底、过度降噪等痛点，提升玩家沉浸式开黑体验。未来合作将覆盖连麦降噪、环境音消除等方向，优化主播端功能，共同打造更稳定流畅的语音解决方案。

游戏语音 AI降噪战略合作
iPad mini 8外观巨变：去掉扬声器开孔

iPad mini 8将采用全新设计，去掉扬声器开孔并提升防水性能，同时苹果也在为iPad mini 8研发一套新的扬声器系统。据悉，iPad mini 8可能采用屏幕激励器方案，通过驱动屏幕振动来发出声音，其原理是将振动机械能直接传输到屏幕，然后让屏幕代替传统扬声器振膜发声。具体来说，它是通过在机身内部的微驱动单元（激励器）来激励中框，从而带动屏幕振动发声。

iPad mini 8

今日大家都在搜的词：

热文

3 天
7天

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

荐MiniMax让AI语音有了新基建

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

声网与Oopz达成战略合作共同打造游戏语音场景AI降噪极致体验

iPad mini 8外观巨变：去掉扬声器开孔

今日大家都在搜的词：

热文

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

真我GT8 Pro阿斯顿马丁F1限量版将于11月10日正式开售

真我GT8 Pro阿斯顿马丁F1限量版外观公布

卢伟冰评Air手机：大胆创新但极致薄牺牲用户体验

OPPO ColorOS 16正式版推送：首批适配11款机型

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

苹果客服回应iPhone或自动拨号：设置或其他问题

vivo OriginOS 6启动公测招募：支持10款机型

魅族22月白天青配色发布：2999元起

小米随身蓝牙音箱曜石黑配色版本开售：售价299元

iQOO Neo11开售2小时销量超前代全天

REDMI官方：REDMI K90超级像素新国屏比2K屏更强

站长商机