首页 > 原创 > 关键词  > AI日报最新资讯  > 正文

AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

2025-10-30 16:27 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、延迟低于250毫秒!MiniMax Speech 2.6发布,Fluent LoRA一键复刻任意音色,语音合成迈入实时交互时代

MiniMax Speech 2.6发布,以低延迟和音色复刻技术推动语音合成进入实时交互时代。

image.png

【AiBase提要:】

🎙️ 通过Fluent LoRA技术,仅需30秒音频即可克隆音色。

⏱️ 实现端到端延迟低于250毫秒,接近人类对话节奏。

🌐 支持教育、客服、智能硬件等多场景应用。

2、蚂蚁数科Agentar打造“金融AI大脑”,入选国际标准卓越案例

文章介绍了蚂蚁数科与宁波银行合作打造的Agentar知识工程KBase案例,成功入选国际标准金融应用卓越案例。该方案通过知识工程技术解决金融机构的知识孤岛问题,构建智能化决策系统,显著提升服务效率和准确率,并具备强可解释性,为金融行业智能化升级树立了新标杆。

【AiBase提要:】

🧠 Agentar知识工程平台实现多源异构数据的全生命周期管理

💡 系统通过“规划-检索-推理”机制提升知识质量与AI逻辑推理能力

🔒 强可解释性保障生成式AI在金融领域的安全合规应用

3、智源发布Emu3.5大模型:以“下一状态预测”重构多模态智能,具身操作能力惊艳业界

智源发布Emu3.5大模型,通过“下一状态预测”重构多模态智能,具备强大的具身操作能力,标志着AI从感知理解迈向智能操作的关键一步。

【AiBase提要:】

🧠 Emu3.5引入自回归式“下一状态预测”(NSP)框架,实现多模态序列建模的突破。

🖼️ 支持文图协同生成、智能图像编辑和时空动态推理,提升跨模态操作能力。

🔄 打破信息孤岛,统一编码文本、视觉和动作等模态,实现跨模态自由切换与协同推理。

4、Cursor 2.0震撼发布!自研模型Composer快4倍,8个AI Agent并行编码,开发者效率迎来“核爆级”升级

Cursor 2.0的发布标志着其从智能补全插件向多智能体协同开发平台的范式跃迁,通过自研模型Composer和多Agent界面显著提升了开发效率和质量。

image.png

【AiBase提要:】

🧠 Composer模型专为代理式编码设计,采用强化学习和混合专家架构,响应速度提升4倍。

ParallelGroup 多个AI Agent并行工作,支持独立任务处理,提高复杂项目的开发效率。

🔄 全流程自动化功能整合代码审查、测试与执行,减少上下文切换,提升开发者专注度。

5、xAI升级Grok Imagine iOS版:新增视频生成与提示重混

xAI宣布其Grok Imagine工具iOS版将推出视频生成功能,支持用户通过文本或图像提示生成高清动态视频,并可从内容提要中直接重混提示。该功能基于Aurora/Grok核心模型优化,提升操作流畅性,适用于短片、广告及创意内容。

image.png

【AiBase提要:】

🎥 新增视频生成功能,支持文本或图像提示生成高清动态视频。

🔄 提示重混机制降低创作门槛,允许快速迭代创作。

📱 iOS优先更新,Android及网页版随后跟进,强化移动AI创作能力。

6、OpenAI 推出新型安全模型gpt-oss-safeguard,助力 AI 领域灵活应对风险

OpenAI 推出的 gpt-oss-safeguard 系列模型在 AI 安全领域提供了更高的灵活性和可定制性,能够根据开发者设定的安全政策进行分类并提供推理理由。然而,这些模型在处理速度和资源消耗方面存在一定的局限性,因此在某些场景下可能不如传统分类器表现优异。

【AiBase提要:】

🛡️ OpenAI 推出了 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款新型安全模型,允许灵活自定义安全政策。

⚙️ 新模型能够根据输入的安全政策对用户消息和对话进行分类,并提供推理理由。

📊 尽管新模型具有优势,但在某些情况下,传统分类器可能更有效,且新模型资源消耗较大。

详情链接:https://huggingface.co/collections/openai/gpt-oss-safeguard

7、TikTok推AI剪辑新工具“Smart Split”,助力创作者轻松剪辑与内容策划

TikTok 在美国创作者峰会上推出了三项全新功能,包括 AI 驱动的视频剪辑工具 “Smart Split”、内容规划工具 “AI Outline” 以及更新的创作者分成政策,旨在提升创作者的工作效率和变现能力。

image.png

【AiBase提要:】

🎥 TikTok 推出 AI 剪辑工具 “Smart Split”,自动生成短视频和字幕。

📝 新的内容规划工具 “AI Outline” 帮助创作者轻松生成视频大纲。

💰 升级的分成政策允许优秀创作者获得高达90% 的收益分成。

8、微软推出 Agent Lightning:全新 AI 框架助力强化学习训练大规模语言模型

微软推出的 Agent Lightning 是一个开源框架,旨在通过强化学习优化多代理系统,无需重构现有架构即可提升大规模语言模型的性能。

image.png

【AiBase提要:】

🧠 Agent Lightning 将代理建模为部分可观测的马尔可夫决策过程,提升策略性能。

🚀 该框架支持在不重构现有系统的情况下优化多代理系统,实现训练代理解耦。

📈 实验表明,在文本转 SQL、检索增强生成和数学问答任务中均取得显著性能提升。

详情链接:https://arxiv.org/abs/2508.03680v1

举报

  • 相关推荐
  • 黄仁勋:未来两三年90%的新知识由AI合成

    英伟达CEO黄仁勋近日在一档节目中表示,未来两到三年内,全球约90%的新知识可能都将由人工智能合成生成。 但他同时指出,这尽管听起来令人震惊,但其本质与人们从陌生人编写的教科书中学习并无不同:无论知识来自人类还是AI,我们仍然需要对其进行事实核查,并验证其是否基于可靠原理。问题的核心并不在于由谁生成”,而在于信息是否可靠”。 此外,黄仁勋提到�

  • AI日报:Kling 2.6将发布;千问APP推学习大模型;Z-Image-Turbo-Fun-Controlnet-Union 开源

    本期AI日报聚焦多领域AI进展:Kling 2.6发布,支持音频同步生成,AI视频进入有声时代;千问APP推出学习大模型,提升拍照答疑与作业批改能力;阿里通义实验室开源图像生成模型,实现精准控制;豆包手机助手遭遇微信登录异常,凸显生态兼容挑战;米哈游推出带猫语特色的AI聊天模型AnuNeko;亚马逊云科技发布三款新型AI智能体,其中Kiro可自主编程数日;IDC报告预测具身智能�

  • AI日报:快手可灵 2.6 全量上线;字节Seedream 4.5发布;DeepSeek连发两款新模型

    本文汇总了AI领域最新动态:快手可灵2.6上线,实现“音画同出”生成视频;字节跳动发布Seedream4.5,提升多图一致性生成;豆包助手回应权限争议并下线微信操作功能;智源研究院推出多模态世界模型Emu3.5,可预测真实世界状态;研究揭示AI模型能发现并利用智能合约漏洞;小米公布AI战略,押注“AI+物理世界”融合;谷歌发布Workspace Studio,助力企业构建AI代理;DeepSeek同步上线V3.2与Speciale两款新模型,展示开源实力。

  • 可灵2.6模型上线!语音、音效与画面一键直出 重构AI视频创作工作流

    可灵视频生成2.6模型推出“音画同出”功能,彻底改变了传统AI视频“先无声画面、后人工配音”的工作流程。它能在单次生成中,输出包含自然语言、动作音效及环境氛围的完整视频,重构了AI视频创作工作流,极大提升创作效率。该模型在中文语音生成效果上保持全球领先,支持生成最长10秒的视频,可广泛应用于广告营销、自媒体、电商等内容创作场景。

  • AI日报:Qwen-Image-i2L可零门槛训练LoRA;智谱AI输入法全新发布;灵光推科普动画生成功能

    本期AI日报涵盖多项AI领域进展:OpenAI正对两款新图像生成模型进行盲测,性能显著提升;阿里通义千问推出Qwen-Image-i2L技术,可将单张图片快速转为可微调的LoRA模型,降低个性化风格迁移门槛;智谱AI开源GLM-ASR语音识别模型并推出桌面端输入法,提升语音交互体验;通用AI助手“灵光”上线科普动画生成功能,帮助可视化复杂科学原理;麦当劳AI生成圣诞广告因争议被撤;马斯克的xAI推出Halftime工具,可将AI广告实时植入影视内容,引发艺术完整性讨论;阿里巴巴成立“千问C端事业群”,整合夸克、UC等资源,旨在打造AI时代的超级APP;微软网页版Excel推出“智能体模式”,AI可深度参与复杂数据处理任务。

  • 真RGB架构引领画质革命,海信RGB-Mini LED成高端电视首选

    在高端电视技术迭代的关键期,消费者对极致画质与低能耗的双重追求推动显示技术革新升级。RGB-Mini LED凭借跨代架构优势脱颖而出,不仅重新定义了高端电视的核心标准,更成为追求品质体验用户的不二之选。作为该技术的开创者和引领者,海信RGB-Mini LED以全方位的性能突破,在画质、控光、能效等核心维度全面领先,成为高端电视的首选方案。

  • AI日报:可灵Avatar 2.0 上线;谷歌推出Gemini 3 Deep Think模式;阿里云析言 XiYan-SQL 强势夺冠

    本期AI日报聚焦多项AI技术突破:Kling AI Avatar 2.0上线,实现数字人表情动作智能生成;谷歌推出Gemini 3 Deep Think模式,显著提升AI推理能力;微软发布轻量级实时语音模型VibeVoice 0.5B;OpenAI最强编码模型GPT-5.1-CodexMax全面接入API;阿里云“析言 XiYan-SQL”在SQL诊断评测中夺冠。此外,豆包助手调整AI操作能力,谷歌将展示Android XR平台更新。

  • AI日报:阿里开源Z-Image图像模型;夸克AI眼镜发布;Opera Neon 浏览器升级

    本期AI日报聚焦多项技术突破:阿里巴巴开源轻量图像模型Z-Image,以6B参数实现高效生成;夸克AI眼镜通过硬件升级优化体验;Opera Neon浏览器集成Gemini3,支持文档自动化编辑;清华大学发布AI教育应用指导原则,规范学术使用;DeepMind推出Gemini 3 Pro系统指令,提升任务可靠性;Adobe推出Project Graph重塑创意流程;Trae SOLO中国版新增多任务编程功能;巨人网络联合高校发布多模态生�

  • 50分钟硬核科普!人民日报为海信RGB-Mini LED电视打call:这创新很中国

    文章介绍了海信RGB-Mini LED电视在显示技术上的突破。通过一系列实验,如“绝对色感大挑战”和“三棱镜分光”,深入讲解了三原色原理,揭示了其领先的液晶显示技术。该电视凭借三原色直驱架构,实现100% BT.2020色域覆盖,色彩表现超越QD-OLED和QD-Mini LED,同时较QD-OLED节能40%以上。海信自研的信芯AI画质芯片H7和RGB-Mini LED三原色自发光芯片攻克了多项技术难题,支持行业最高3×10240分区控制和108bits控色精度。在高端电视市场,RGB-Mini LED已占据近半份额,其中超九成消费者选择海信。文章强调,这不仅是一次技术升级,更是中国制造在全球显示领域争取话语权的体现,通过创新掌握定价主动权,让高端技术走进寻常百姓家。

  • RGB-Mini LED与SQD-Mini LED,谁代表真正的高端电视未来? 一文揭示技术与画质差距

    高端电视市场正经历技术革新,海信RGB-Mini LED电视凭借三原色独立背光架构,实现100% BT.2020色域覆盖,较传统QD-Mini LED提升19%,能耗降低40%以上。其通过精准控光与色彩同步技术,有效杜绝串色与偏色问题,在暗场表现、画面通透度等方面显著优于SQD-Mini LED及QD-OLED方案。当前三星、索尼等国际品牌也已布局RGB-Mini LED路线,印证其正成为高端电视的主流方向。

今日大家都在搜的词: