AI日报：腾讯混元开源Hunyuan-GameCraft；图像编辑器nano-banana发布；字节开源Agent专用模型 M3-Agent-Control

2025-08-14 16:03 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://www.aibase.com/zh

1、一张图秒变游戏大片！腾讯混元开源 Hunyuan-GameCraft

腾讯混元团队推出的Hunyuan-GameCraft是一款基于HunyuanVideo底模的高动态交互式游戏视频生成框架，能够通过简单的输入生成高质量的游戏视频，显著降低了制作成本并提升了创作效率。

【AiBase提要:】
🎮 Hunyuan-GameCraft通过输入一张图、文字描述和动作指令，生成高清动态游戏视频。
💡 该工具解决了传统游戏内容生产中的动作僵硬、场景静态和成本高昂问题。
🚀 支持自由流畅的动作控制，适用于消费级硬件，降低游戏开发门槛。
详情链接:https://hunyuan-gamecraft.github.io/

2、超越FLUX Kontext！新图像编辑模型nano-banana角色还原能力超强

Nano-Banana模型在图像编辑领域表现出色，尤其在角色还原、场景重构和图像融合方面超越了FLUX Kontext模型，展现了强大的潜力。

【AiBase提要:】
🎨 角色还原能力：Nano-Banana模型能够精准保留图像中人物角色的细节特征，确保编辑后的图像保持高度的视觉真实性。
🌆 场景重构能力：该模型在处理复杂的背景替换或场景转换任务时，能生成自然连贯的画面效果。
🖼️ 图像融合技术：Nano-Banana在处理多元素融合场景时，能够实现平滑过渡，几乎消除不同元素之间的违和感。
详情链接:https://lmarena.ai/?chat-modality=image

3、字节开源Agent专用模型 M3-Agent-Control，基于Qwen 3 32B训练

字节跳动最新推出的AI模型M3-Agent-Control，基于Qwen 3 32B训练，拥有328亿参数，采用BF16张量类型，展示了其在AI领域的创新实力。该模型旨在推动智能技术的开放和普及，为开发者和企业提供了更多可能性。

【AiBase提要:】
🚀 M3-Agent-Control是一个基于Qwen 3 32B训练的高性能AI模型，拥有328亿参数。
🧠 该模型采用了BF16张量类型，能够更快地响应并提供更高效的结果。
🌐 字节跳动致力于通过开放源代码和科学共享的方式，加速人工智能技术的发展。
详情链接:https://huggingface.co/ByteDance-Seed/M3-Agent-Control

4、Kimi即将推出依托K2驱动的全球版PPT生成功能

Kimi K2模型凭借其强大的性能和开源特性，在AI领域取得了显著成就，并即将推出全球版PPT生成功能，进一步提升用户效率。

【AiBase提要:】
🧠 Kimi K2模型拥有1万亿总参数和326亿活跃参数，性能卓越。
🚀 Kimi K2在多个基准测试中表现优异，超越了DeepSeek等开源模型。
📊 新功能将为用户提供更高效、智能的PPT生成体验，推动AI办公场景普及。

5、阿里1688推出“诚信通 AI 版”会员，10月全面上线

阿里巴巴旗下1688平台将推出全新商家会员产品——‘诚信通 AI 版’，计划于2025年10月正式上线。新入驻商家必须开通AI版，现有基础版将在过渡期后下架。同时，1688还将升级免费AI数字员工功能，帮助商家提升获客和运营效率。

【AiBase提要:】
🚀 阿里1688推出‘诚信通 AI 版’，2025年10月全面上线。
🔒 新入驻商家需开通AI版，现有基础版将在过渡期后下架。
🤖 升级免费AI数字员工功能，助力商家高效获客与运营。

6、苹果智能家居中心再度延期至2026年中期，全新Siri成核心亮点

苹果正在开发的类似iPad的智能家居中心设备因技术问题被推迟至2026年中期发布。该设备将配备7英寸显示屏和扬声器系统，外观设计类似Google Nest Hub，并搭载专为家庭成员共同使用而设计的新操作系统Charismatic。此外，基于大型语言模型的全新Siri将成为其核心功能。

【AiBase提要:】
🍎 苹果智能家居中心因技术问题推迟至2026年中期发布。
📺 设备配备7英寸显示屏，外观设计类似Google Nest Hub。
🤖 基于大型语言模型的全新Siri将成为该设备的核心功能。

7、万兴科技抢先接入GPT-5！成首批集成OpenAI最新模型的厂商

万兴科技成功接入OpenAI的GPT-5模型，展示了其在人工智能领域的前瞻性布局，并提醒投资者关注相关风险。

【AiBase提要:】
🧠 万兴科技成功接入OpenAI的GPT-5模型，展现了其在AI技术集成方面的实力。
⚠️ 公司同时提醒投资者注意潜在风险，体现了对市场的理性态度。
🚀 GPT-5的性能提升为万兴科技在AI应用竞争中提供了新的机遇。

8、全球 AI 独角兽数量激增至 498 家，总值达 2.7 万亿美元

AI 行业正迅速崛起，吸引了大量投资和财富。目前全球已有近 500 家 AI 独角兽公司，总价值达到 2.7 万亿美元，并且在过去两年中诞生了 100 家新的独角兽公司。这表明 AI 正以创纪录的速度创造亿万富翁，并可能迎来“万亿富翁”时代。

【AiBase提要:】
🚀 全球已有 498 家 AI 独角兽，总值达到 2.7 万亿美元。
💰 过去两年中，AI 行业新创立的 100 家独角兽公司显示出迅猛的增长势头。
🌟 AI 创始人和投资者的财富激增，多个亿万富翁纷纷诞生，未来可能会迎来“万亿富翁”时代。

9、谷歌为 Slides 和 Vids 引入全新 AI 图像编辑功能，轻松替换和扩展背景

谷歌推出了基于 Gemini 的两项新 AI 图像编辑功能，分别用于替换和扩展图片背景。这些功能通过文本提示实现图像处理，提升用户在 Google Slides 和 Vids 中的创作效率。

【AiBase提要:】
🖼️ 用户可通过文本提示快速替换图片背景，适用于产品展示或统一头像背景。
📐 支持扩展图片背景，将竖屏图片转换为横屏格式，避免图像扭曲。
📅 功能预计8月14日全面上线，覆盖 Google Workspace 多个订阅版本及插件用户。

10、昆仑万维发布Skywork Deep Research Agent v2

昆仑万维发布Skywork Deep Research Agent v2，显著增强了天工超级智能体的核心引擎，引入了多模态深度调研和浏览器智能体，提升了信息处理能力和用户体验。

【AiBase提要:】
🧠 引入多模态深度调研Agent，提升信息检索与生成能力。
🌐 推出多模态深度浏览器智能体，革新社交媒体内容分析模式。
📈 Skywork Deep Research Agent v2在权威评测中表现优异，刷新行业SOTA纪录。
详情链接:https://skywork.ai

（举报）

相关推荐

关键词：

马斯克母亲发帖支持儿子：演示Grok视频生成功能

近日，马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。她表示，这次我把手指放在了最近在X上发布的这张照片上，提示是用Grok制作视频”，现在自己的狗摇着尾巴了，自己玩得很开心。她还特别提示，这个视频由@grok Imagine制作。

马斯克 Grok 视频生成
腾讯混元3D世界模型在魔搭社区开源首发

7月27日，腾讯混元3D世界模型1.0在魔搭社区开源首发。这是业界首个开源的沉浸式3D世界生成模型，支持文字/图片输入快速生成完整3D场景，将原本需要数周的建模时间缩短至几分钟。该模型显著提升了游戏开发、VR、数字内容等领域的创作效率，开发者可免费下载体验，还能通过魔搭社区提供的4000+MCP服务和调试工具进行优化训练。作为中国最大AI开源社区，魔搭已汇聚500+机构、7万+模型，覆盖36个国家1600万开发者。此前腾讯开源的混元MoE模型Hunyuan-A13B也在该社区首发。

腾讯混元3D 魔搭社区
荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

【AI日报】主要内容： 1. B站测试"花生AI"视频工具，3分钟可成片，同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0，实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI，苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐，仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新：恢复GPT-4o默认模式，为GPT-5引入多模式选择，优化交互体验

AI视频创作花生AI B站AI工具
腾讯旗下AI工作台ima上线新功能：支持上传文件生成AI播客

腾讯旗下AI工作台ima迎来重大升级，以活知识库大模型的深度耦合重构知识管理体系。此次更新突破性地实现了多模态知识转化用户上传文件即可生成AI播客，Xmind思维导图经智能解析后自动沉淀为结构化知识库，共享知识库更支持关键信息置顶功能。这些创新使得碎片化知识如同被注入生命力，通过动态重组转化为驱动组织进化的智能中枢。

腾讯 AI工作台知识管理
同比增长17%！腾讯Q2研发投入202.5亿元混元3D大模型接连突破

腾讯控股今日发布了截至6月30日的2025年第二季度财报。营收为1845亿元，同比增长15%，经营利润（Non-IFRS）692.5亿元，同比增18%。财报显示，当季腾讯研发投入达202.5亿元，同比增长17%；资本开支 191.1亿元，同比增幅达119%。在持续加码AI战略的推动下，AI技术带来的效益正在加速显现。 AI高投入背景下，腾讯通过数据增强与合成技术，提升了数据的质量与多样性，并通过更有效�

腾讯财报 AI技术研发投入
昇腾算力赋能视频生成革命浙江大学团队攻克长时一致性难题

浙江大学朱凌霄团队基于昇腾AI平台，研发出首个无需训练的长序列视觉指令生成框架LIGER，解决了视频生成领域长期存在的时序一致性难题。该技术通过历史提示和视觉记忆机制保持内容连贯性，并采用基于DDIM反演的记忆校准技术提升准确性。团队还提出引导式渐进蒸馏方法，在保持视频质量基础上实现8倍加速。研究成果入选ICLR2025，构建了包含569个任务的评估数据集。未来将深化多模态生成技术研究，构建自主创新的技术生态体系。

视频生成长视频生成计算资源优化
荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

本文介绍了AI领域最新动态：1)快手可灵2.1推出首尾帧功能，提升视频生成效果；2)昆仑万维发布Mureka V7.5音乐模型，优化人声表现；3)腾讯云推出AI开发工具CloudBase AI CLI，可减少80%编码量；4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验；5)Meta开源DINOv3视觉模型，无需标注即可实现卓越性能；6)宇树科技人形机器人H1获1500米赛跑金牌；7)谷歌Gemini新增记忆功能和隐私聊天模式；8)香港大学开源OpenCUA框架，打造个性化电脑助手；9)OpenAI考虑在ChatGPT引入广告；10)谷歌发布超小型开源模型Gemma 3 270M，支持手机端运行。

AI日报快手可灵视频生成
在腾讯新财报里，AI拉动广告业务连续11个季度高增

腾讯发布的2025年第二季度财报交出了一份亮眼答卷——营收1845亿元，同比增长15%，不仅稳住了增长曲线，还在核心业务上打出了“加速度”。从具体业务板块来看，如增值服务业务持续发力，第二季度收入达914亿元，同比增长16%。营销服务业务增长势头强劲，第二季度收入358亿元，同比增长20%。金融科技及企业服务业务第二季度收入555亿元，同比增长10%。用户数据方面�

腾讯财报增值服务营销服务
KTV用AI生成的MV惊现骷髅：顾客直呼“辣眼睛” 门店回应可切换

近日，多名消费者在社交平台发帖吐槽魅KTV新上线的AI视频功能，称其生成的抽象画面严重破坏K歌体验。走访多家魅KTV门店发现，部分门店已全面启用该AI系统。某门店工作人员透露，系统更新后所有歌曲默认播放AI生成视频，“但90%的顾客都会要求切换回原版MV，包厢服务人员可现场操作”。另一未更新系统的门店则表示，顾客仍可正常观看原唱MV。

魅KTV AI视频功能 K歌体验
腾讯加速造“世界”

“如果没有开源，没有去和社区交流，我们靠闭门造车是空想不出来的。”近日，在接受字母榜独家专访时，腾讯混元3D团队负责人郭春超这样说道。郭春超的感慨来自于在近期的开源社区中，国产模型“搅动”了整个大模型业界的开源生态， Hugging Face的模型热度榜单被中国企业连续“霸榜”。最多时，前10开源席位中有9个来自中国。在排名前几的选手中，除了 “Text Genera

开源大模型腾讯混元3D

今日大家都在搜的词：

热文

3 天
7天

AI日报：腾讯混元开源Hunyuan-GameCraft；图像编辑器nano-banana发布；字节开源Agent专用模型 M3-Agent-Control

马斯克母亲发帖支持儿子：演示Grok视频生成功能

腾讯混元3D世界模型在魔搭社区开源首发

荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

腾讯旗下AI工作台ima上线新功能：支持上传文件生成AI播客

同比增长17%！腾讯Q2研发投入202.5亿元混元3D大模型接连突破

昇腾算力赋能视频生成革命浙江大学团队攻克长时一致性难题

荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

在腾讯新财报里，AI拉动广告业务连续11个季度高增

KTV用AI生成的MV惊现骷髅：顾客直呼“辣眼睛” 门店回应可切换

腾讯加速造“世界”

今日大家都在搜的词：

热文

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

华为MatePad Air新款官宣8月15日发布

REDMI Note 15 Pro系列官宣下周发布

华为MatePad Air 12英寸2025发布：售价2799元起

AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型M

微信聊天可以引用部分文字了！还可用表情包回复

华为MatePad 11.5 S 2025发布：预装鸿蒙5 首发售价2099元起

苹果正式入驻小红书 iPhone 17系列下月发布

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

iPhone17Pro最新外观曝光：苹果调整天线布局

AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线A

全球首款女团机器人10580元拍出接入京东Joy Inside智能体

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智

REDMI Note 15 Pro系列官宣本月发布

京东养车50亿补贴更名震骨价号称补贴不「唬」

雷军发起小米YU7版本更名投票称小米YU7标准版绝非丐版

REDMI Turbo 5已备案：首发天玑8500处理器

站长商机