首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

2025-09-01 15:54 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、阶跃发布端到端语音大模型Step-Audio 2 mini

阶跃星辰发布了最强开源端到端语音大模型Step-Audio2mini,其在多个国际基准测试中取得SOTA成绩,表现出卓越的音频理解、语音识别、跨语种翻译和对话能力。该模型采用创新架构设计,突破传统ASR+LLM+TTS三级结构,实现原始音频输入到语音响应输出的直接转换,并引入链式思维推理与强化学习联合优化,提升对副语言信息的理解和自然回应能力。

image.png

【AiBase提要:】

🔥 Step-Audio2mini在多个国际基准测试中取得SOTA成绩,性能超越Qwen-Omni、Kimi-Audio等开源模型。

🧠 模型采用真端到端多模态架构,突破传统ASR+LLM+TTS三级结构,实现更简洁、低时延的音频处理。

💡 引入链式思维推理与强化学习联合优化,提升对情绪、语调、音乐等副语言信息的理解和自然回应能力。

详情链接:https://github.com/stepfun-ai/Step-Audio2

2、9月1日AI内容新规正式生效!不标识就违法

《人工智能生成合成内容标识办法》于9月1日起强制实施,标志着中国AI内容治理进入制度化、规范化的新阶段。新规要求所有AI生成内容必须进行显式和隐式标识,以提升信息透明度并防止虚假信息传播。

image.png

【AiBase提要:】

✅ 显式标识要求AI生成内容在文本、图片、视频和音频中明确标注,打破AI内容的隐身术。

🔍 隐式标识通过数字指纹技术嵌入元数据,实现内容溯源和监管能力提升。

⚖️ 违规后果严重,包括限流、整改、下架及法律风险,推动AI产业规范发展。

3、美团推出开源大模型LongCat:旨在赋能开发者,加速AI应用落地

美团推出的开源大模型LongCat具有强大的技术实力,通过创新的混合专家架构实现了高效的计算性能,并在多个基准测试中表现出色,为开发者提供了强大的工具。

image.png

【AiBase提要:】

🧠 LongCat-Flash拥有560亿参数,采用混合专家(MoE)架构,动态激活部分参数以优化计算效率。

🚀 支持超过100个标记每秒的推理处理能力,具备低延迟和高扩展性。

📊 在MMLU、数学推理等任务中表现优异,展示了其在实际应用中的潜力。

详情链接:https://longcat.chat/

4、上海AI实验室发布多模态大模型书生·万象 InternVL3.5

上海AI实验室发布了多模态大模型InternVL3.5,通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现了推理能力、部署效率与通用能力的全面升级。该模型在多个基准测试中表现优异,超越了GPT-5和Claude-3.7-Sonnet等主流模型。

image.png

【AiBase提要:】

✨ InternVL3.5采用级联式强化学习框架,显著提升了推理性能。

🖼️ 模型支持多种视觉分辨率,并优化了响应速度。

🚀 提供多种参数规模模型,满足不同资源需求场景。

详情链接:https://github.com/OpenGVLab/InternVL

5、腾讯ARC开源音频模型 AudioStory:用大语言模型生成长音频

腾讯ARC团队推出的AudioStory模型,结合了大语言模型和音频生成技术,能够生成结构化且具有时间一致性的长篇叙事音频。该模型在指令跟随能力和音频质量方面表现出色,适用于视频配音和长音频生成等多种场景。

image.png

【AiBase提要:】

🎧 AudioStory 是一款基于大语言模型的长篇叙事音频生成模型,能够处理多种音频任务。

📊 模型具备强大的指令跟随能力,可生成连贯的音频叙事,提升用户体验。

🛠️ 团队已发布推理代码,并展示多个应用案例,展现其在视频配音和长音频生成上的优势。

详情链接:https://github.com/TencentARC/AudioStory

6、OpenAI震撼发布GPT-realtime!语音AI革命来了,人机对话真假难辨

OpenAI推出的GPT-realtime语音模型在自然流畅度和情感表达方面实现了重大突破,能够精准模拟人类语调、情感波动和语速变化。该模型不仅具备多模态处理能力,还能实时调整语音风格以适应不同场景需求,为AI语音交互带来了革命性的变化。

image.png

【AiBase提要:】

🚀 GPT-realtime实现了前所未有的自然语音交互体验,精准还原人类语音细节。

🧠 模型具备多模态处理能力,结合图像与语音信息进行综合分析和响应。

💡 支持多种语音风格切换,满足不同场景下的个性化语音交互需求。

7、Meta 与 UCSD 推出 DeepConf:AI 推理准确率达 99.9%,计算成本降低 85%

Meta与加州大学圣地亚哥分校(UCSD)合作推出的DeepConf技术,在高难度推理任务中实现了99.9%的准确率,并将计算资源消耗降低了84.7%。该技术通过引入“置信度”机制,使AI能够动态调整解题策略,从而提高推理效率和准确性。

image.png

【AiBase提要:】

🔍 DeepConf 技术在高难度推理任务中实现了99.9% 的准确率。

💡 计算资源消耗减少了84.7%,大幅降低了运算成本。

🚀 通过 “置信度” 机制,AI 能够动态调整解题策略,提升推理效率。

详情链接:https://arxiv.org/abs/2508.15260

8、马斯克承认xAI代码库遭窃,前员工转投 OpenAI!

马斯克承认xAI代码库遭窃,前员工Xuechen Li被指控窃取商业机密并转投OpenAI,事件引发科技界广泛关注。

【AiBase提要:】

💻 前员工Xuechen Li被指控窃取xAI的商业机密并转投OpenAI。

🔒 xAI要求法院禁止Li在OpenAI工作,并归还被盗数据。

🚀 Li离职前套现近700万美元,可能为OpenAI节省数十亿美元研发费用。

9、阿里巴巴 Qwen 团队发布下一代 GUI 自动化框架 Mobile-Agent-v3 和 GUI-Owl

阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3 和 GUI-Owl,旨在解决图形用户界面(GUI)自动化中的挑战。这些工具通过多模态模型和多代理协作,提升了任务理解和执行的能力,展现出强大的跨平台任务完成能力,标志着阿里巴巴在通用 GUI 自动化领域的重大进展。

image.png

【AiBase提要:】

🧠 GUI-Owl 是阿里巴巴推出的多模态代理模型,集成感知、推理和执行能力,适应复杂 GUI 环境。

🤖 Mobile-Agent-v3 框架实现多代理协作,通过动态更新计划提升任务执行效率。

📊 这两款产品在 GUI 自动化基准测试中表现出色,标志着阿里巴巴在自动化领域的重要突破。

详情链接:https://arxiv.org/abs/2508.15144

10、微软推出Copilot Labs,首个实验性工具“Copilot音频表达”上线

微软推出了全新的实验性AI中心Copilot Labs,旨在邀请用户参与AI的创新与发展。其首个工具是“Copilot音频表达”,能够将书面文本转化为自然流畅的语音旁白,并支持情感和故事模式,让用户拥有高度控制权。

QQ20250901-104501.png

【AiBase提要:】

🌟 Copilot Labs是一个邀请用户参与AI创新的平台,标志着微软在AI领域的进一步探索。

🔊 “Copilot音频表达”是首个实验性工具,可将文本转换为自然语音,并支持情感和故事模式。

🌐 该工具在全球范围内免费开放,但部分功能需要登录Microsoft账户并拥有Copilot Pro订阅。

详情链接:https://copilot.microsoft.com/labs/experiments/audio-expression

11、小红书自动化神器xiaohongshu-mcp上线!AI助力内容创作,解放你的双手!

xiaohongshu-mcp这一基于MCP协议的开源工具,能够实现小红书平台的自动化登录、内容发布和数据获取功能。该工具通过与AI客户端集成,简化了操作流程,并具备良好的扩展性,适合内容创作者和开发者使用。

【AiBase提要:】

🔐 智能登录,持久化体验:首次扫码登录后,后续操作无需重复登录。

🖼️ 图文发布领跑,未来功能可期:目前支持图文内容自动化发布,未来计划扩展视频发布和数据分析功能。

🛠️ 开发者友好,生态开放:基于Go语言开发,代码结构清晰,易于二次开发,支持GitHub克隆部署。

详情链接:https://github.com/xpzouying/xiaohongshu-mcp

举报

  • 相关推荐
  • AI日报:即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

    AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • AI日报:腾讯推音效生成工具AudioGenie;阿里推智能体WebWatcher;我国首个法律垂直大模型“小包公”发布

    本文介绍了AI领域最新动态:1)腾讯推出电影级音频生成工具AudioGenie,展现中国AI技术实力;2)阿里开源多模态智能体WebWatcher,突破现有系统局限;3)港大等高校联合推出3D建模技术OmniPart,实现模型组件独立性和清晰度;4)Meta发布无需标注数据的通用图像处理模型DINOv3;5)国内首个法律大模型"小包公"发布;6)ChatGPT移动端收入突破20亿美元;7)安卓厂商借鉴灵动岛设计,新芯片推动AI功能普及;8)欧洲AI公司推出仅94MB的超小模型;9)Claude Code新增编程教学模式;10)AI技术被滥用于电商恶意退款;11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • AI日报:腾讯开源3D世界模型HunyuanWorld-Voyager;即梦AI系列模型开放API;通义推智能体开发框架AgentScope 1.0

    本文介绍了AI日报栏目,聚焦人工智能领域最新动态。主要内容包括:腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能,以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

  • 别再猜了!手把手教你用数据选择AI模型,我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

    开发者分享模型选择心路历程:从盲目试错到数据驱动。曾因追求低价模型导致成本飙升,后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3,基于价格、上下文长度和代码能力等数据,最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型,只有“最适合”的模型,建议开发者善用专业工具进行数据驱动决策,避免隐性成本。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 大模型技术赋能声音创作:逗哥配音引领AI语音合成新浪潮‌

    逗哥配音作为国内领先的AI配音平台,凭借自主研发的语音合成大模型技术,已服务超千万创作者,累计生成音频量突破270亿次。其核心技术突破包括:1)支持40种语言,语音质量MOS分提升0.25,拟人度超83%;2)首创"AI分角功能",将多角色配音效率提升90%以上;3)建成覆盖近千款发音人的全球声库,包含方言、外语及影视角色音;4)创新"真人声纹+AI增强"模式,

今日大家都在搜的词: