AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列模型开放API；通义推智能体开发框架AgentScope 1.0

2025-09-02 15:29 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://app.aibase.com/zh

1、腾讯开源具备原生3D重建能力的超长程世界模型：HunyuanWorld-Voyager

腾讯发布的HunyuanWorld-Voyager是一种创新的视频扩散框架，能够基于单张输入图像生成具有世界一致性的3D点云，并支持沉浸式探索。该模型在视频生成质量和场景重建效果上表现出色，展现了其在AI驱动的VR、游戏和仿真空间智能领域的潜力。

【AiBase提要:】
🌍 HunyuanWorld-Voyager能基于单张输入图像生成具有世界一致性的3D点云，支持用户沉浸式探索。
🎥 模型同时生成精确对齐的深度信息和RGB视频，适用于高质量三维重建。
🏆 在多个测试中，HunyuanWorld-Voyager在视频生成质量和场景重建效果上均优于其他模型。

2、通义实验室推出新一代智能体开发框架AgentScope 1.0

通义实验室推出的AgentScope 1.0是一个专注于多智能体开发的开源框架，提供全生命周期解决方案，包括开发、部署和监控。其三层技术架构（核心框架、Runtime和Studio）支持独立使用，具备实时介入控制、智能上下文管理和高效工具调用三大能力，确保了智能体的安全性和运行效率。

【AiBase提要:】
🌟 AgentScope 1.0是新一代智能体开发框架，专注于多智能体的开发，提供全生命周期解决方案。
🚀 具备实时介入控制、智能上下文管理和高效工具调用三大能力，提高智能体的开发和运行效率。
🔒 AgentScope Runtime 提供安全的工具沙箱和高效的部署运行引擎，确保智能体的安全与稳定。
详情链接:https://github.com/agentscope-ai/agentscope

3、即梦AI系列模型开放API，为开发者提供一站式图像与视频生成服务

即梦AI与火山引擎全面开放API服务，为企业提供强大的图像和视频生成能力，助力创意转化为现实。

【AiBase提要:】
🎨 文生图3.0、文生图3.1等模型开放API服务，助力企业高效生成图像和视频内容。
🎬 视频生成3.0pro与动作模仿DreamActor M1等模型支持多样化的创作需求。
💼 即梦AI通过火山引擎赋能企业级市场，推动商业应用的创新发展。

4、腾讯开源翻译巨头 Hunyuan-MT-7B：斩获 WMT2025 三十项冠军，翻译界的新霸主！

腾讯推出的 Hunyuan-MT-7B 在 WMT2025 中表现卓越，成为翻译领域的佼佼者，展现了其在多语言处理上的强大实力，并通过开源方式推动技术的广泛应用和发展。

【AiBase提要:】
🧪 Hunyuan-MT-7B 在 WMT2025 中斩获 30 个语种的第一名，展现强大的翻译能力。
🌐 支持 31 种语言，包括多种小众语言，体现腾讯在自然语言处理领域的技术积累。
🚀 开源模式推动技术发展，助力全球交流与合作。

5、苹果推出 STARFlow：全新 AI 图像生成技术想力压 DALL-E 与 Midjourney

苹果公司推出的 STARFlow AI 图像生成系统在技术上实现了突破，结合了正则化流和自回归变换器，提高了高分辨率图像生成的效率和质量。该系统通过深浅设计和潜在空间操作优化模型性能，并且与学术机构合作推动 AI 技术的发展。

【AiBase提要:】
🧠 STARFlow 结合正则化流和自回归变换器，提升图像生成效率。
💡 通过深浅设计和潜在空间操作优化模型表现。
🚀 苹果与学术机构合作推动 AI 技术发展，未来应用前景广阔。
详情链接:https://arxiv.org/pdf/2506.06276

6、苹果 FastVLM 上线:5分钟体验85倍速视觉 AI，数据永不出设备

苹果推出的 FastVLM 视觉语言模型现已向公众开放，基于 Apple Silicon 芯片的 Mac 可直接体验。FastVLM 在视频字幕处理速度上提升了85倍，同时体积缩小了3倍以上，支持在浏览器中加载轻量级版本，无需复杂安装过程。其本地化运行设计确保数据永不离开设备，为隐私保护提供了理想解决方案。

【AiBase提要:】
🍎 FastVLM 提供近乎即时高分辨率图像处理能力，提升视频字幕处理速度85倍。
💻 支持在浏览器中加载轻量级版本，无需复杂安装即可体验强大功能。
🔒 数据完全在本地运行，确保隐私安全且支持离线使用。

7、新模型 CoMPaSS-FLUX.1：提升Flux文本到图像生成的空间理解能力

CoMPaSS-FLUX.1是一种基于 FLUX.1 文本到图像扩散模型的 LoRA 适配器，旨在显著提升生成图像时对物体空间关系的理解能力。该模型在多个基准测试中表现出色，特别是在处理物体之间的空间关系方面取得了显著进展。

【AiBase提要:】
🌟 CoMPaSS-FLUX.1提升了文本到图像生成的空间理解能力，尤其在处理物体之间关系上表现突出。
📊 性能评估显示该模型在多个基准测试中都有明显提升，同时保持了高质量的生成效果。
📚 模型训练使用了严格筛选的数据集，确保生成图像在视觉上具有良好的空间关系和清晰度。
详情链接:https://huggingface.co/blurgy/CoMPaSS-FLUX.1

8、Cherry Studio 与硅基流动深度合作，免费提供 Qwen38B 模型

Cherry Studio 与硅基流动深度合作，为用户提供免费的 Qwen38B 模型，进一步丰富其多模型支持能力，提升 AI 交互体验。

【AiBase提要:】
🧠 Cherry Studio 与硅基流动合作，免费提供 Qwen38B 模型，提升 AI 交互体验。
💻 支持多平台及多种主流大语言模型，简化用户使用流程。
🚀 提供跨行业智能助手，增强生产力和个性化功能。

9、谷歌推全新Gemini API URL Context 功能可详解网页内容

谷歌推出的 Gemini API URL Context 功能，让 AI 能够精准解析和理解网页内容，极大简化了开发者的流程，提高了信息提取效率。

【AiBase提要:】
🌐 专为开发者设计的 API，可解析和理解网页中的所有内容，包括 PDF、图片等多种格式。
📊 支持处理高达34MB 的网页内容，能够提取关键数据如“总资产”和“总负债”。
🔒 无法突破付费墙，且对专用工具如 YouTube 视频和 Google Docs 不进行处理。
详情链接:https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/

10、Youtu-Agent 智能体框架正式开源，引领 AI 发展新潮流

腾讯优图实验室开源了Youtu-Agent框架，该框架专为构建、运行和评估自主AI智能体而设计，具备高性能、灵活性和对开源模型的支持。其在多项基准测试中表现优异，成为AI社区的重要工具。

【AiBase提要:】
✅ Youtu-Agent框架支持多种任务，如数据分析和文件处理，提升开发效率。
🚀 模块化设计使开发者能够灵活调整智能体行为，便于定制化应用。
🌐 开源策略鼓励全球开发者参与，推动AI技术的创新与协作。
详情链接:https://github.com/TencentCloudADP/Youtu-agent

（举报）

相关推荐

关键词：

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东在11.11大促期间升级直播技术，推出“立体3D技术”和“JoyAI大模型”等创新，打破传统直播边界。立体3D技术实现裸眼360度商品展示，用户无需额外设备即可旋转查看产品细节；虚拟偶像Aura等跨次元互动增强趣味性。AI全链路工具简化主播运营，提升内容创作效率。这些举措为用户带来沉浸式购物体验，引领直播电商技术革新方向。

京东11.11 立影3D技术 JoyAI大模型
2899元！小米智能门锁4 Pro双摄版发布：支持AI掌静脉+3D人脸识别

小米智能门锁4 Pro双摄版正式发布，目前已经在小米有品开启预订，首发到手价2899元。新品整体上与此前发布的小米智能门锁4 Pro保持一致，最大的不同是增加了一颗底部摄像头，可以全方位监控无死角，尤其对于查看快递非常实用。

小米智能门锁双摄版发布 AI掌静脉识别
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
技嘉发布X3D系列主板：专为AMD X3D处理器打造，游戏性能提升高达25%

技嘉推出专为AMD Ryzen X3D处理器优化的X870E AORUS X3D系列主板，首发型号包括MASTER与PRO两款。该系列搭载X3D鸡血模式2.0技术，通过AI智能场景识别可自动优化处理器性能，游戏性能最高提升25%。主板采用全快易拆设计，配备免螺丝M.2插槽、磁吸散热装甲及一键拆卸显卡插槽。集成AI黑科技2.0支持DDR5内存超频至9000MT/s+，预装网卡驱动实现开机即联网。两款主板均提供4年质保（含1年免费换新），现已在各大电商平台上市。

技嘉主板 AMD Ryzen
当贝D7X 和D6X 有啥不一样？这些升级点要知道

当贝D7X投影仪相比D6X实现全面升级：亮度从720CVIA提升至1100CVIA（增幅近60%），对比度达1600:1，暗场细节更立体；色域覆盖110% BT.2020，色彩呈现更鲜活；搭载8核芯片与64G存储，多任务运行更流畅；新增米家生态联动和语音控制功能。D6X则保留触控屏设计，适合卧室小空间使用。追求画质性能选D7X，注重触控操作选D6X。

投影仪当贝D7X 当贝D6X
AI日报：腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新；阿里夸克AI眼镜开启预售

本文汇总近期AI领域重要动态：月之暗面再获数亿美元融资，显示资本对国产大模型的信心；Anthropic为Claude推出记忆功能，兼顾个性化与隐私保护；中科大与字节发布MoGA长视频生成模型，实现分钟级高质量生成；腾讯ima2.0升级任务模式，可自主拆解复杂流程；阿里夸克AI眼镜开启预售，融合拍摄与智能功能；微软Copilot新增群聊、记忆与Edge AI模式；Opera推出深度研究代理ODRA提升�

AI 大模型 Kimi
AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

微软发布首款自研图像生成模型MAI-Image-1，跻身LMArena前十，注重实用性与光影效果；百度世界2025大会将聚焦大模型与AI全球化战略；Meta新技术使RAG推理速度提升30倍；开源项目nanochat实现低成本构建聊天AI；谷歌NotebookLM新增动漫视频生成功能；中国农大发布神农大模型3.0助力智慧农业；腾讯启动"青云奖学金"培养AI人才；苹果FS-DFM模型长文本生成效率提升128倍；谷歌Lens整合AI图像编辑功能；港大与美团提出CodePlot-CoT方法，通过代码绘图解决数学难题，性能提升21%。

AI 图像生成微软
AI日报：Google Skills平台向公众免费开放内部AI知识；LiblibAI 完成1.3亿美元融资；Sora更新推出“角色客串”功能

本期AI日报聚焦视频生成领域重大进展：昆仑万维SkyReels将于11月上线新版AI视频工具；LiblibAI完成1.3亿美元融资；阿里推出夸克对话助手；豆包视频模型Seedance1.0pro实现首尾帧一致性突破；Vidu Q2全面开放API；Sora新增角色客串功能并即将推出安卓版；MiniMax海螺2.3在真实感方面超越Veo；谷歌推出免费AI学习平台"Google Skills"；字节跳动Seed团队发布3D生成模型Seed3D1.0，支持单图生成高质量3D资产。

AI视频昆仑万维 SkyReels
荐AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球首发；Gemini代码惊现Veo3.1

阿里巴巴发布紧凑型Qwen3-VL多模态模型，推动边缘设备AI应用；科大讯飞推出全球首款AI翻译耳机，支持60种语言实时翻译；谷歌NotebookLM集成图像生成功能，可将笔记转为动态视频；ChatGPT将于12月向成人开放限制内容并推出自定义交互功能；谷歌Gemini代码泄露Veo3.1视频模型升级迹象；马斯克宣布X平台将全面转向AI推荐系统；巨人网络与清华联合开源多方言语音合成框架DiaMoE-TTS；vivo公布X200系列影像升级计划；字节跳动开源文本驱动高保真人脸生成模型FaceCLIP。

AI技术多模态模型边缘计算
双十一卧室投影新选择，大眼橙C3D重新定义卧室大屏体验

大眼橙C3D投影仪专为卧室场景设计，集放松、陪伴与治愈功能于一体。搭载850CVIA亮度与原生1080P分辨率，画质清晰通透；配备MT9660芯片与MEMC运动补偿，运行流畅不卡顿。创新双轴云台支持多角度投射，自带氛围灯营造温馨观影环境。智能功能包括无感对焦、梯形校正及墙面颜色自适应，操作便捷。双十一补贴价1529元，性价比突出，购买还可参与抽iPhone17活动，是提升居家幸福感的优选。

卧室投影仪智能家居居家幸福感

今日大家都在搜的词：

热文

3 天
7天

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列模型开放API；通义推智能体开发框架AgentScope 1.0

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

2899元！小米智能门锁4 Pro双摄版发布：支持AI掌静脉+3D人脸识别

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

技嘉发布X3D系列主板：专为AMD X3D处理器打造，游戏性能提升高达25%

当贝D7X 和D6X 有啥不一样？这些升级点要知道

AI日报：腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新；阿里夸克AI眼镜开启预售

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

AI日报：Google Skills平台向公众免费开放内部AI知识；LiblibAI 完成1.3亿美元融资；Sora更新推出“角色客串”功能

荐AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球首发；Gemini代码惊现Veo3.1

双十一卧室投影新选择，大眼橙C3D重新定义卧室大屏体验

今日大家都在搜的词：

热文

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

华为nova Flip S小折叠开售：首发3388元起

华为鸿蒙HarmonyOS 6公测版开启推送

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

REDMI K90标准版外观公布：屏幕视觉四等边

华为余承东：鸿蒙5终端设备数量突破2300万

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

余承东官宣华为路由X3 Pro 采用“日照金山”设计

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

站长商机