首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

2025-09-01 15:54 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、阶跃发布端到端语音大模型Step-Audio 2 mini

阶跃星辰发布了最强开源端到端语音大模型Step-Audio2mini,其在多个国际基准测试中取得SOTA成绩,表现出卓越的音频理解、语音识别、跨语种翻译和对话能力。该模型采用创新架构设计,突破传统ASR+LLM+TTS三级结构,实现原始音频输入到语音响应输出的直接转换,并引入链式思维推理与强化学习联合优化,提升对副语言信息的理解和自然回应能力。

image.png

【AiBase提要:】

🔥 Step-Audio2mini在多个国际基准测试中取得SOTA成绩,性能超越Qwen-Omni、Kimi-Audio等开源模型。

🧠 模型采用真端到端多模态架构,突破传统ASR+LLM+TTS三级结构,实现更简洁、低时延的音频处理。

💡 引入链式思维推理与强化学习联合优化,提升对情绪、语调、音乐等副语言信息的理解和自然回应能力。

详情链接:https://github.com/stepfun-ai/Step-Audio2

2、9月1日AI内容新规正式生效!不标识就违法

《人工智能生成合成内容标识办法》于9月1日起强制实施,标志着中国AI内容治理进入制度化、规范化的新阶段。新规要求所有AI生成内容必须进行显式和隐式标识,以提升信息透明度并防止虚假信息传播。

image.png

【AiBase提要:】

✅ 显式标识要求AI生成内容在文本、图片、视频和音频中明确标注,打破AI内容的隐身术。

🔍 隐式标识通过数字指纹技术嵌入元数据,实现内容溯源和监管能力提升。

⚖️ 违规后果严重,包括限流、整改、下架及法律风险,推动AI产业规范发展。

3、美团推出开源大模型LongCat:旨在赋能开发者,加速AI应用落地

美团推出的开源大模型LongCat具有强大的技术实力,通过创新的混合专家架构实现了高效的计算性能,并在多个基准测试中表现出色,为开发者提供了强大的工具。

image.png

【AiBase提要:】

🧠 LongCat-Flash拥有560亿参数,采用混合专家(MoE)架构,动态激活部分参数以优化计算效率。

🚀 支持超过100个标记每秒的推理处理能力,具备低延迟和高扩展性。

📊 在MMLU、数学推理等任务中表现优异,展示了其在实际应用中的潜力。

详情链接:https://longcat.chat/

4、上海AI实验室发布多模态大模型书生·万象 InternVL3.5

上海AI实验室发布了多模态大模型InternVL3.5,通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现了推理能力、部署效率与通用能力的全面升级。该模型在多个基准测试中表现优异,超越了GPT-5和Claude-3.7-Sonnet等主流模型。

image.png

【AiBase提要:】

✨ InternVL3.5采用级联式强化学习框架,显著提升了推理性能。

🖼️ 模型支持多种视觉分辨率,并优化了响应速度。

🚀 提供多种参数规模模型,满足不同资源需求场景。

详情链接:https://github.com/OpenGVLab/InternVL

5、腾讯ARC开源音频模型 AudioStory:用大语言模型生成长音频

腾讯ARC团队推出的AudioStory模型,结合了大语言模型和音频生成技术,能够生成结构化且具有时间一致性的长篇叙事音频。该模型在指令跟随能力和音频质量方面表现出色,适用于视频配音和长音频生成等多种场景。

image.png

【AiBase提要:】

🎧 AudioStory 是一款基于大语言模型的长篇叙事音频生成模型,能够处理多种音频任务。

📊 模型具备强大的指令跟随能力,可生成连贯的音频叙事,提升用户体验。

🛠️ 团队已发布推理代码,并展示多个应用案例,展现其在视频配音和长音频生成上的优势。

详情链接:https://github.com/TencentARC/AudioStory

6、OpenAI震撼发布GPT-realtime!语音AI革命来了,人机对话真假难辨

OpenAI推出的GPT-realtime语音模型在自然流畅度和情感表达方面实现了重大突破,能够精准模拟人类语调、情感波动和语速变化。该模型不仅具备多模态处理能力,还能实时调整语音风格以适应不同场景需求,为AI语音交互带来了革命性的变化。

image.png

【AiBase提要:】

🚀 GPT-realtime实现了前所未有的自然语音交互体验,精准还原人类语音细节。

🧠 模型具备多模态处理能力,结合图像与语音信息进行综合分析和响应。

💡 支持多种语音风格切换,满足不同场景下的个性化语音交互需求。

7、Meta 与 UCSD 推出 DeepConf:AI 推理准确率达 99.9%,计算成本降低 85%

Meta与加州大学圣地亚哥分校(UCSD)合作推出的DeepConf技术,在高难度推理任务中实现了99.9%的准确率,并将计算资源消耗降低了84.7%。该技术通过引入“置信度”机制,使AI能够动态调整解题策略,从而提高推理效率和准确性。

image.png

【AiBase提要:】

🔍 DeepConf 技术在高难度推理任务中实现了99.9% 的准确率。

💡 计算资源消耗减少了84.7%,大幅降低了运算成本。

🚀 通过 “置信度” 机制,AI 能够动态调整解题策略,提升推理效率。

详情链接:https://arxiv.org/abs/2508.15260

8、马斯克承认xAI代码库遭窃,前员工转投 OpenAI!

马斯克承认xAI代码库遭窃,前员工Xuechen Li被指控窃取商业机密并转投OpenAI,事件引发科技界广泛关注。

【AiBase提要:】

💻 前员工Xuechen Li被指控窃取xAI的商业机密并转投OpenAI。

🔒 xAI要求法院禁止Li在OpenAI工作,并归还被盗数据。

🚀 Li离职前套现近700万美元,可能为OpenAI节省数十亿美元研发费用。

9、阿里巴巴 Qwen 团队发布下一代 GUI 自动化框架 Mobile-Agent-v3 和 GUI-Owl

阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3 和 GUI-Owl,旨在解决图形用户界面(GUI)自动化中的挑战。这些工具通过多模态模型和多代理协作,提升了任务理解和执行的能力,展现出强大的跨平台任务完成能力,标志着阿里巴巴在通用 GUI 自动化领域的重大进展。

image.png

【AiBase提要:】

🧠 GUI-Owl 是阿里巴巴推出的多模态代理模型,集成感知、推理和执行能力,适应复杂 GUI 环境。

🤖 Mobile-Agent-v3 框架实现多代理协作,通过动态更新计划提升任务执行效率。

📊 这两款产品在 GUI 自动化基准测试中表现出色,标志着阿里巴巴在自动化领域的重要突破。

详情链接:https://arxiv.org/abs/2508.15144

10、微软推出Copilot Labs,首个实验性工具“Copilot音频表达”上线

微软推出了全新的实验性AI中心Copilot Labs,旨在邀请用户参与AI的创新与发展。其首个工具是“Copilot音频表达”,能够将书面文本转化为自然流畅的语音旁白,并支持情感和故事模式,让用户拥有高度控制权。

QQ20250901-104501.png

【AiBase提要:】

🌟 Copilot Labs是一个邀请用户参与AI创新的平台,标志着微软在AI领域的进一步探索。

🔊 “Copilot音频表达”是首个实验性工具,可将文本转换为自然语音,并支持情感和故事模式。

🌐 该工具在全球范围内免费开放,但部分功能需要登录Microsoft账户并拥有Copilot Pro订阅。

详情链接:https://copilot.microsoft.com/labs/experiments/audio-expression

11、小红书自动化神器xiaohongshu-mcp上线!AI助力内容创作,解放你的双手!

xiaohongshu-mcp这一基于MCP协议的开源工具,能够实现小红书平台的自动化登录、内容发布和数据获取功能。该工具通过与AI客户端集成,简化了操作流程,并具备良好的扩展性,适合内容创作者和开发者使用。

【AiBase提要:】

🔐 智能登录,持久化体验:首次扫码登录后,后续操作无需重复登录。

🖼️ 图文发布领跑,未来功能可期:目前支持图文内容自动化发布,未来计划扩展视频发布和数据分析功能。

🛠️ 开发者友好,生态开放:基于Go语言开发,代码结构清晰,易于二次开发,支持GitHub克隆部署。

详情链接:https://github.com/xpzouying/xiaohongshu-mcp

举报

  • 相关推荐
  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • 海量音色AI赋能,逗哥配音重塑语音创作新体验

    逗哥配音作为领先AI配音平台,以“海量音色+AI赋能”为核心,拥有上千款声音类型,覆盖多语言及商业场景。通过自研大模型韵律技术,实现情感饱满的语音生成,支持影音解说、小说推文等多种需求。平台内置场景化音色模板,新手也能快速制作专业配音,免费功能已满足日常短视频创作。其AI分角功能优化多人角色管理,提升对话内容制作效率。逗哥配音正重塑语音创作边界,成为短视频解说领域首选工具。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • AI日报:月之暗面开源AI新框架Kosong;百度发布新模型ERNIE-4.5-VL;GPT-5.1“隐身”登场

    本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • 中国移动北斗卫星短信业务升级:支持文字+图片+语音

    中国移动宣布北斗短信息服务完成重大升级,新增图片、语音等富媒体功能,文本传输能力显著提升,单条消息可发送40个汉字、接收达10个汉字。Redmi Note 15 Pro+卫星消息版率先支持升级,其他品牌终端也将陆续开启。此次升级在无地面网络信号时仍能通过多种形式传递信息,为户外探险、应急救援等场景提供坚实通信保障,标志着北斗通信正式步入“视听兼具”新时代。

  • AI日报:广电整治AI动画乱象;360发布大模型安全白皮书;百度推出小度AI眼镜Pro

    国家广电总局宣布自2026年3月起全面整治AI生成内容,要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》,提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro,集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX,实现文本化语音编辑。Grok新增纯文本生成视频功能,17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠,并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型,优化开发者体验。

今日大家都在搜的词: