首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

2025-09-01 15:54 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、阶跃发布端到端语音大模型Step-Audio 2 mini

阶跃星辰发布了最强开源端到端语音大模型Step-Audio2mini,其在多个国际基准测试中取得SOTA成绩,表现出卓越的音频理解、语音识别、跨语种翻译和对话能力。该模型采用创新架构设计,突破传统ASR+LLM+TTS三级结构,实现原始音频输入到语音响应输出的直接转换,并引入链式思维推理与强化学习联合优化,提升对副语言信息的理解和自然回应能力。

image.png

【AiBase提要:】

🔥 Step-Audio2mini在多个国际基准测试中取得SOTA成绩,性能超越Qwen-Omni、Kimi-Audio等开源模型。

🧠 模型采用真端到端多模态架构,突破传统ASR+LLM+TTS三级结构,实现更简洁、低时延的音频处理。

💡 引入链式思维推理与强化学习联合优化,提升对情绪、语调、音乐等副语言信息的理解和自然回应能力。

详情链接:https://github.com/stepfun-ai/Step-Audio2

2、9月1日AI内容新规正式生效!不标识就违法

《人工智能生成合成内容标识办法》于9月1日起强制实施,标志着中国AI内容治理进入制度化、规范化的新阶段。新规要求所有AI生成内容必须进行显式和隐式标识,以提升信息透明度并防止虚假信息传播。

image.png

【AiBase提要:】

✅ 显式标识要求AI生成内容在文本、图片、视频和音频中明确标注,打破AI内容的隐身术。

🔍 隐式标识通过数字指纹技术嵌入元数据,实现内容溯源和监管能力提升。

⚖️ 违规后果严重,包括限流、整改、下架及法律风险,推动AI产业规范发展。

3、美团推出开源大模型LongCat:旨在赋能开发者,加速AI应用落地

美团推出的开源大模型LongCat具有强大的技术实力,通过创新的混合专家架构实现了高效的计算性能,并在多个基准测试中表现出色,为开发者提供了强大的工具。

image.png

【AiBase提要:】

🧠 LongCat-Flash拥有560亿参数,采用混合专家(MoE)架构,动态激活部分参数以优化计算效率。

🚀 支持超过100个标记每秒的推理处理能力,具备低延迟和高扩展性。

📊 在MMLU、数学推理等任务中表现优异,展示了其在实际应用中的潜力。

详情链接:https://longcat.chat/

4、上海AI实验室发布多模态大模型书生·万象 InternVL3.5

上海AI实验室发布了多模态大模型InternVL3.5,通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现了推理能力、部署效率与通用能力的全面升级。该模型在多个基准测试中表现优异,超越了GPT-5和Claude-3.7-Sonnet等主流模型。

image.png

【AiBase提要:】

✨ InternVL3.5采用级联式强化学习框架,显著提升了推理性能。

🖼️ 模型支持多种视觉分辨率,并优化了响应速度。

🚀 提供多种参数规模模型,满足不同资源需求场景。

详情链接:https://github.com/OpenGVLab/InternVL

5、腾讯ARC开源音频模型 AudioStory:用大语言模型生成长音频

腾讯ARC团队推出的AudioStory模型,结合了大语言模型和音频生成技术,能够生成结构化且具有时间一致性的长篇叙事音频。该模型在指令跟随能力和音频质量方面表现出色,适用于视频配音和长音频生成等多种场景。

image.png

【AiBase提要:】

🎧 AudioStory 是一款基于大语言模型的长篇叙事音频生成模型,能够处理多种音频任务。

📊 模型具备强大的指令跟随能力,可生成连贯的音频叙事,提升用户体验。

🛠️ 团队已发布推理代码,并展示多个应用案例,展现其在视频配音和长音频生成上的优势。

详情链接:https://github.com/TencentARC/AudioStory

6、OpenAI震撼发布GPT-realtime!语音AI革命来了,人机对话真假难辨

OpenAI推出的GPT-realtime语音模型在自然流畅度和情感表达方面实现了重大突破,能够精准模拟人类语调、情感波动和语速变化。该模型不仅具备多模态处理能力,还能实时调整语音风格以适应不同场景需求,为AI语音交互带来了革命性的变化。

image.png

【AiBase提要:】

🚀 GPT-realtime实现了前所未有的自然语音交互体验,精准还原人类语音细节。

🧠 模型具备多模态处理能力,结合图像与语音信息进行综合分析和响应。

💡 支持多种语音风格切换,满足不同场景下的个性化语音交互需求。

7、Meta 与 UCSD 推出 DeepConf:AI 推理准确率达 99.9%,计算成本降低 85%

Meta与加州大学圣地亚哥分校(UCSD)合作推出的DeepConf技术,在高难度推理任务中实现了99.9%的准确率,并将计算资源消耗降低了84.7%。该技术通过引入“置信度”机制,使AI能够动态调整解题策略,从而提高推理效率和准确性。

image.png

【AiBase提要:】

🔍 DeepConf 技术在高难度推理任务中实现了99.9% 的准确率。

💡 计算资源消耗减少了84.7%,大幅降低了运算成本。

🚀 通过 “置信度” 机制,AI 能够动态调整解题策略,提升推理效率。

详情链接:https://arxiv.org/abs/2508.15260

8、马斯克承认xAI代码库遭窃,前员工转投 OpenAI!

马斯克承认xAI代码库遭窃,前员工Xuechen Li被指控窃取商业机密并转投OpenAI,事件引发科技界广泛关注。

【AiBase提要:】

💻 前员工Xuechen Li被指控窃取xAI的商业机密并转投OpenAI。

🔒 xAI要求法院禁止Li在OpenAI工作,并归还被盗数据。

🚀 Li离职前套现近700万美元,可能为OpenAI节省数十亿美元研发费用。

9、阿里巴巴 Qwen 团队发布下一代 GUI 自动化框架 Mobile-Agent-v3 和 GUI-Owl

阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3 和 GUI-Owl,旨在解决图形用户界面(GUI)自动化中的挑战。这些工具通过多模态模型和多代理协作,提升了任务理解和执行的能力,展现出强大的跨平台任务完成能力,标志着阿里巴巴在通用 GUI 自动化领域的重大进展。

image.png

【AiBase提要:】

🧠 GUI-Owl 是阿里巴巴推出的多模态代理模型,集成感知、推理和执行能力,适应复杂 GUI 环境。

🤖 Mobile-Agent-v3 框架实现多代理协作,通过动态更新计划提升任务执行效率。

📊 这两款产品在 GUI 自动化基准测试中表现出色,标志着阿里巴巴在自动化领域的重要突破。

详情链接:https://arxiv.org/abs/2508.15144

10、微软推出Copilot Labs,首个实验性工具“Copilot音频表达”上线

微软推出了全新的实验性AI中心Copilot Labs,旨在邀请用户参与AI的创新与发展。其首个工具是“Copilot音频表达”,能够将书面文本转化为自然流畅的语音旁白,并支持情感和故事模式,让用户拥有高度控制权。

QQ20250901-104501.png

【AiBase提要:】

🌟 Copilot Labs是一个邀请用户参与AI创新的平台,标志着微软在AI领域的进一步探索。

🔊 “Copilot音频表达”是首个实验性工具,可将文本转换为自然语音,并支持情感和故事模式。

🌐 该工具在全球范围内免费开放,但部分功能需要登录Microsoft账户并拥有Copilot Pro订阅。

详情链接:https://copilot.microsoft.com/labs/experiments/audio-expression

11、小红书自动化神器xiaohongshu-mcp上线!AI助力内容创作,解放你的双手!

xiaohongshu-mcp这一基于MCP协议的开源工具,能够实现小红书平台的自动化登录、内容发布和数据获取功能。该工具通过与AI客户端集成,简化了操作流程,并具备良好的扩展性,适合内容创作者和开发者使用。

【AiBase提要:】

🔐 智能登录,持久化体验:首次扫码登录后,后续操作无需重复登录。

🖼️ 图文发布领跑,未来功能可期:目前支持图文内容自动化发布,未来计划扩展视频发布和数据分析功能。

🛠️ 开发者友好,生态开放:基于Go语言开发,代码结构清晰,易于二次开发,支持GitHub克隆部署。

详情链接:https://github.com/xpzouying/xiaohongshu-mcp

举报

  • 相关推荐
  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布

    本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • VITA平台赋能AI办公,沸蛇AI语音鼠标提升办公效率

    云决科技推出VITA一站式AI办公平台,结合自研AI语音鼠标,通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型,用户无需切换工具,语音即可调用文字处理、数据分析、创意设计等多元功能,实现会议纪要生成、PPT自动制作、视频一键合成等操作,节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案,整合100多个AI应用场景和200多种模板,持续优化产品功能,致力于成为职场人士提升效率的智能助手。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • 声网与Oopz达成战略合作 共同打造游戏语音场景AI降噪极致体验

    游戏语音头部平台Oopz与声网达成战略合作,聚焦游戏开黑场景中的噪音问题。双方将结合AI降噪技术,针对复杂多变噪音环境,解决降噪不彻底、过度降噪等痛点,提升玩家沉浸式开黑体验。未来合作将覆盖连麦降噪、环境音消除等方向,优化主播端功能,共同打造更稳定流畅的语音解决方案。

  • iPad mini 8外观巨变:去掉扬声器开孔

    iPad mini 8将采用全新设计,去掉扬声器开孔并提升防水性能,同时苹果也在为iPad mini 8研发一套新的扬声器系统。 据悉,iPad mini 8可能采用屏幕激励器方案,通过驱动屏幕振动来发出声音,其原理是将振动机械能直接传输到屏幕,然后让屏幕代替传统扬声器振膜发声。 具体来说,它是通过在机身内部的微驱动单元(激励器)来激励中框 ,从而带动屏幕振动发声。

今日大家都在搜的词: