AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音识别大模型Fun-ASR

2025-08-22 15:42 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://app.aibase.com/zh

1、腾讯元宝接入 DeepSeek V3.1，开启全新智能体验

腾讯元宝正式接入 DeepSeek V3.1，显著提升了响应速度和智能助手能力，为用户提供更高效、更智能的服务。

【AiBase提要:】
提升响应速度，快速给出答案。
增强智能助手能力，处理复杂任务。
持续优化产品，满足用户需求。

2、即梦AI上线智能多帧功能！最多支持 10 张图片，一键生成超长镜头

最近，即梦AI推出智能多帧功能，该技术通过仅需 10 张关键帧图像即可生成 54 秒连贯的长镜头视频，极大简化了视频制作流程，并提升了创作效率和视觉效果。

【AiBase提要:】
🎬 简化视频制作：AI一键生成 54 秒长镜头，传统剪辑不再必需。
⚡ 流畅运镜：复杂指令轻松实现，视觉效果更加高级。
🌟 自然过渡：画面过渡自然流畅，给观众带来极佳体验。

3、可灵AI首尾帧功能重磅升级！2. 1 模型效果提升235%，视频创作进入精准控制时代

文章详细介绍了可灵AI的2. 1 模型首尾帧功能，该技术通过算法优化和数据质量提升，实现了235%的效果提升，使AI视频生成从随机性转向精准可控。这一突破为广告营销、影视制作、短剧创作和动画制作等领域带来了显著的价值提升。

【AiBase提要:】
🎥 首尾帧功能让创作者能精确控制视频的起始和结束画面，提升创作效率。
🚀 2. 1 模型的性能飞跃标志着AI视频生成技术的重大进步，推动行业向专业级平台发展。
🎬 该技术在多个领域如广告、影视、动画等带来变革，助力创意表达与内容生产。

4、钉钉、通义实验室联合发布 Fun-ASR，新一代语音识别大模型亮相

钉钉与通义实验室合作推出新一代语音识别大模型 Fun-ASR，旨在为企业提供更强大、灵活的语音转写能力。该模型具备高效处理复杂语音信号、精准识别行业术语、支持多语言和口音识别等优势，并提供专属模型定制训练服务，满足企业个性化需求。

【AiBase提要:】
🧠 Fun-ASR 能够高效转写复杂语音信号并精准识别行业术语。
🌍 支持多种语言和口音识别，拓展了应用场景。
🛠️ 提供专属模型定制训练服务，满足企业个性化需求。

5、腾讯CodeBuddy IDE国内版开启公测接入DeepSeek V3.1

腾讯正式推出CodeBuddy IDE国内版，支持多款前沿模型，实现从需求到部署的全流程自动化编程，提升开发效率。

【AiBase提要:】
🔥 CodeBuddy IDE是国内首个支持DeepSeek V3. 1 的AI一站式工作台。
🚀 DeepSeek-V3.1-Think在编程能力、工具调用和思考效率上表现突出。
🌐 内置腾讯云EdgeOne Pages等工具，助力开发者快速构建和部署应用。

6、Vercel AI Gateway发布！百种AI模型一键调用，零门槛打造智能应用

Vercel AI Gateway的发布标志着AI开发领域的又一里程碑，为开发者提供了一个高效、便捷的AI模型调用平台，解决了多模型、多供应商管理的复杂痛点。

【AiBase提要:】
🧠 支持数百种AI模型，涵盖OpenAI、xAI、Anthropic等知名供应商。
💰 零成本加价，支持BYOK功能，提升灵活性与成本透明度。
⚡ 性能优化，低延迟且高可靠性，满足大规模AI工作负载需求。
详情链接:https://vercel.com/blog/ai-gateway-is-now-generally-available

7、Anthropic将Claude Code整合进企业计划提升AI开发治理能力

Anthropic将Claude Code整合进企业计划，强化了AI开发的治理能力，并推出了合规API以满足企业需求。

【AiBase提要:】
🧠 将Claude Code整合进企业订阅服务，提升AI开发治理能力。
🔒 新增合规API，加强IT和安全领导对AI辅助编码的监控与治理。
📊 通过分析仪表盘和使用限制，管理用户活动并优化资源分配。

8、阿里Mobile-Agent-v3 横空出世！GUI自动化领域迎来跨时代突破

阿里巴巴发布的第三代GUI智能体框架Mobile-Agent-v3 和开源的多模态跨平台GUI虚拟层模型GUI-Owl，展示了其在多个权威测试中的卓越性能，并强调了其在GUI自动化领域的技术突破与广泛应用前景。

【AiBase提要:】
📱 Mobile-Agent-v3 实现了跨平台GUI自动化，支持移动设备和桌面系统。
🧠 GUI-Owl具备多模态感知能力，能精准识别界面元素并执行自然语言指令。
🌐 开源的GUI-Owl为开发者提供了强大的工具，推动行业技术创新。
详情链接:https://github.com/X-PLUG/MobileAgent

9、阿里发布新一代Agentic Coding编程平台Qoder

阿里发布的新一代Agentic Coding编程平台Qoder，以其强大的上下文工程能力和编程智能体，为软件开发带来了革命性的变革。Qoder不仅提升了开发效率，还通过创新的功能如Repo Wiki和Quest Mode，改变了传统开发模式，为开发者提供了高效、智能且易于使用的编程环境。

【AiBase提要:】
🧠 Qoder集成了全球顶尖的编程模型，能够一次检索多达 10 万个代码文件，提升开发效率。
🔄 Qoder内置代码检索引擎，支持Repo Wiki功能，显性化隐性知识，便于理解和项目管理。
🚀 Quest Mode（AI自主编程模式）使Agent能扮演全栈工程师角色，将抽象需求转化为详尽设计规范并完成任务。
详情链接:https://qoder.com

10、清华IDEA团队重磅发布GUAVA！单张照片0. 1 秒生成3D化身，技术突破震撼全球

清华大学与粤港澳大湾区数字经济研究院联合研发的GUAVA框架在3D化身生成技术上实现了重大突破。该框架能够在0. 1 秒内仅凭一张照片生成高质量的3D化身模型，显著提升了效率和精度，为多个行业提供了全新的解决方案。

【AiBase提要:】
🚀 GUAVA框架能在0. 1 秒内通过单张照片生成高精度的3D化身模型。
🧠 引入了创新性的3D高斯模型，提高了虚拟形象的表现力和细节呈现。
🌐 开源精神推动了全球开发者基于GUAVA进行二次开发和创新应用。
详情链接:https://eastbeanzhang.github.io/GUAVA/

11、谷歌搜索新增 AI Agent，餐厅预订与个性化服务一键搞定!

谷歌搜索引擎新增 AI Agent 功能，为用户提供更智能的搜索体验。该功能能够自动完成餐厅预订，并根据个人偏好定制搜索结果，极大简化了用户的预订流程。此外，AI Agent 还支持与家人和朋友分享搜索灵感，提升了互动体验。目前，该功能已在 180 多个国家和地区推出，未来还将扩展到更多应用场景。

【AiBase提要:】
🍽️ AI Agent 功能帮助用户轻松预订餐厅，满足个性化需求。
👥 用户可分享搜索结果，与朋友共同决策，提升互动体验。
🌍 功能已在 180 多个国家推出，未来将拓展至更多应用领域。

12、VAST重磅发布Tripo 3.0！AI 3D建模新王者诞生， 4000 万数据集震撼全球

文章介绍了VAST公司推出的Tripo 3. 0 版本，标志着AI驱动的3D内容创作进入全新发展阶段。该技术已服务超过 300 万名开发者，并被 700 多家企业采用，同时拥有 4000 万个高质量3D数据集，展示了AI在3D建模领域的巨大潜力。

【AiBase提要:】
🔥 Tripo 3. 0 标志着AI3D建模进入新阶段，推动行业变革。
📈 VAST已服务 300 万开发者并获得 700 多家企业客户信任。
📊 累计生成 4000 万个高质量3D模型，为AI优化提供宝贵资源。

（举报）

相关推荐

关键词：

荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

本期AI日报聚焦多领域技术突破：京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”，推动物流行业迈向自主执行；DeepSeek推出V3.1终结版，修复漏洞并为V4架构铺路；Kimi上线Agent模式“OK Computer”，支持智能网站开发等复杂任务；ChatGPT新增个性化资讯功能，定制用户专属新闻；Exa Code发布代码索引工具，助力AI代理精准生成代码；Meta推出AI视频创作平台Vibes，简化短视频制作；蚂蚁数科发布隐私保护AI框架Gibbon，推理速度提升超百倍；OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平，覆盖九大行业44种职业。

京东物流超脑大模型2.0 异狼具身智能机械臂系统
DeepSeek-V3.2-Exp正式发布

DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp，该模型基于V3.1-Terminus升级，引入创新的稀疏注意力机制DSA，首次实现细粒度稀疏注意力，在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面，官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整：输入缓存0.2元、输入未缓存2元、输出3元，开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

DeepSeek-V3.2-Exp 稀疏注意力机制 DSA
DeepSeek更新至V3.1 Terminus版本：两大升级

9月22日，深度求索宣布DeepSeek V3.1已更新至Terminus版本，官方App、网页端、小程序与API模型同步升级。本次更新在保持模型原有能力基础上，针对用户反馈进行改进：优化语言一致性，缓解中英文混杂、异常字符等问题；提升Code Agent与Search Agent表现。官方表示新版本输出效果更稳定，各领域评测表现优异。开源版本已在Hugging Face和ModelScope平台发布。

DeepSeek V3.1 Terminus版本
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

2025年9月29日，深度求索公司发布新一代模型架构DeepSeek-V3.2，引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本，在V3.1-Terminus基础上引入稀疏注意力机制，优化长文本训练和推理效率。目前官方应用端已同步更新，API大幅降价。此次模型体积达671GB，下载需8-10小时。业内专家指出，此次快速适配表明双方早有深度技术协�

DeepSeek-V3.2 大模型架构稀疏注意力机制
破解 AI “安全与性能” 难题！DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

9月18日，华为全联接大会2025在上海开幕。会上，华为与浙江大学联合发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。该模型在安全防护能力上表现突出，对有害言论、敏感内容等14个维度的防御成功率近100%，同时通用能力测试性能损耗控制在1%以内。双方表示将继续深化合作，推动AI安全技术与产业生态协同发展，为我国人工智能高质量发展提供支撑。

华为全联接大会 DeepSeek-R1-Safe 昇腾千卡算力平台
腾讯应用宝与高通（中国）基于骁龙平台共推端侧AI能力发布AI智能启动台

在2025骁龙峰会期间，腾讯应用宝与高通（中国）宣布合作，聚焦移动应用跨端引擎技术与端侧AI应用创新。双方推出针对搭载骁龙X系列计算平台的定制化解决方案，包括升级的跨端引擎和基于端侧AI能力的智能启动台，提升PC内容体验与生产力工具效率。跨端引擎实现安卓应用原生运行、续航超9小时、虚拟机启动仅5.5秒等性能突破，覆盖超1000款热门应用。智能启动台通过文件主题分类、本地搜索和AI服务（如发票助手）重构PC交互，降低AI调用成本并保护数据隐私。此次合作旨在完善跨端生态布局，推动端侧AI普惠化落地。

骁龙峰会腾讯应用宝跨端引擎
荐月流水上涨数倍、多品类爆发，AI产品在移动端越来越赚钱？

近日，Sensor Tower 发布《2025年 AI 应用市场调查报告》，报告中提到，移动端 AI 产品 IAP 收入在2025年上半年半年度环比增长率为100%，但具体到产品上，全球 IAP 收入 Top10全部都是 ChatBot，相比于 Web 端的百花齐放，App 端能赚到钱的 AI 原生产品依旧单一。但如果我们将视角放大，其实在 Chatbot 之外，很多品类借助 AI 实现了收入提升，甚至是数倍的提升。

AI应用市场移动端AI产品 IAP收入
全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

国庆假期前夕，OpenAI发布了Sora 2，一款旗舰视频和音频生成模型。据介绍，Sora 2可以完成以前的视频生成模型难以完成的事情，比如运动员的奥林匹克体动作、桨板上的后空翻，准确模拟浮力和刚度的动态等等，并擅长现实主义、电影和动漫风格。一则来自《连线》杂志的重磅爆料更是指出，OpenAI的下一步棋，并非简单升级一个模型，而是要亲自下场，推出一个独立的AI影�

OpenAI Sora 2
当IP商业化进入AI时代，“智能潮玩”正在重写粉丝经济逻辑

全球IP产业链已成为文化娱乐消费的重要增长点，2024年衍生品市场规模超3200亿美元，其中潮玩产业高速增长。传统IP商业化面临用户互动单向、消费一次性等瓶颈。智能潮玩通过"平台化硬件+可替换IP角色+UGC社区"模式，实现从静态收藏到动态共生的转型，以乐森机器人等产品为例，用户可自定义角色动作并参与内容共创，形成"硬件+内容+社区"的长期运营生态。这标志着IP商业化从单向衍生迈向双向互动，推动产业从"衍生"进入"共生"新阶段。

IP产业链文化娱乐消费潮玩产业

今日大家都在搜的词：

热文

3 天
7天

AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音识别大模型Fun-ASR

荐AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布；Kimi 推出全新 Agent 模式

DeepSeek-V3.2-Exp正式发布

DeepSeek更新至V3.1 Terminus版本：两大升级

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

破解 AI “安全与性能” 难题！DeepSeek-R1-Safe 基础大模型在华为全联接大会2025正式发布

腾讯应用宝与高通（中国）基于骁龙平台共推端侧AI能力发布AI智能启动台

荐月流水上涨数倍、多品类爆发，AI产品在移动端越来越赚钱？

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

当IP商业化进入AI时代，“智能潮玩”正在重写粉丝经济逻辑

今日大家都在搜的词：

热文

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

比特币价格突破12.5万美元刷新历史最高纪录

小米回应“小米汽车突然自己开走”：排除车辆质量问题

小米17 1TB版明日开售售价5299元

雷军：小米17系列开售仅5天销量破100万台

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

站长商机