首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:腾讯混元开源Hunyuan-GameCraft;图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

2025-08-14 16:03 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://www.aibase.com/zh

1、一张图秒变游戏大片!腾讯混元开源Hunyuan-GameCraft

腾讯混元团队推出的Hunyuan-GameCraft是一款基于HunyuanVideo底模的高动态交互式游戏视频生成框架,能够通过简单的输入生成高质量的游戏视频,显著降低了制作成本并提升了创作效率。

【AiBase提要:】

🎮 Hunyuan-GameCraft通过输入一张图、文字描述和动作指令,生成高清动态游戏视频。

💡 该工具解决了传统游戏内容生产中的动作僵硬、场景静态和成本高昂问题。

🚀 支持自由流畅的动作控制,适用于消费级硬件,降低游戏开发门槛。

详情链接:https://hunyuan-gamecraft.github.io/

2、超越FLUX Kontext!新图像编辑模型nano-banana角色还原能力超强

Nano-Banana模型在图像编辑领域表现出色,尤其在角色还原、场景重构和图像融合方面超越了FLUX Kontext模型,展现了强大的潜力。

image.png

【AiBase提要:】

🎨 角色还原能力:Nano-Banana模型能够精准保留图像中人物角色的细节特征,确保编辑后的图像保持高度的视觉真实性。

🌆 场景重构能力:该模型在处理复杂的背景替换或场景转换任务时,能生成自然连贯的画面效果。

🖼️ 图像融合技术:Nano-Banana在处理多元素融合场景时,能够实现平滑过渡,几乎消除不同元素之间的违和感。

详情链接:https://lmarena.ai/?chat-modality=image

3、字节开源Agent专用模型 M3-Agent-Control,基于Qwen 3 32B训练

字节跳动最新推出的AI模型M3-Agent-Control,基于Qwen 3 32B训练,拥有328亿参数,采用BF16张量类型,展示了其在AI领域的创新实力。该模型旨在推动智能技术的开放和普及,为开发者和企业提供了更多可能性。

【AiBase提要:】

🚀 M3-Agent-Control是一个基于Qwen 3 32B训练的高性能AI模型,拥有328亿参数。

🧠 该模型采用了BF16张量类型,能够更快地响应并提供更高效的结果。

🌐 字节跳动致力于通过开放源代码和科学共享的方式,加速人工智能技术的发展。

详情链接:https://huggingface.co/ByteDance-Seed/M3-Agent-Control

4、Kimi即将推出依托K2驱动的全球版PPT生成功能

Kimi K2模型凭借其强大的性能和开源特性,在AI领域取得了显著成就,并即将推出全球版PPT生成功能,进一步提升用户效率。

image.png

【AiBase提要:】

🧠 Kimi K2模型拥有1万亿总参数和326亿活跃参数,性能卓越。

🚀 Kimi K2在多个基准测试中表现优异,超越了DeepSeek等开源模型。

📊 新功能将为用户提供更高效、智能的PPT生成体验,推动AI办公场景普及。

5、阿里1688推出“诚信通 AI 版”会员,10月全面上线

阿里巴巴旗下1688平台将推出全新商家会员产品——‘诚信通 AI 版’,计划于2025年10月正式上线。新入驻商家必须开通AI版,现有基础版将在过渡期后下架。同时,1688还将升级免费AI数字员工功能,帮助商家提升获客和运营效率。

【AiBase提要:】

🚀 阿里1688推出‘诚信通 AI 版’,2025年10月全面上线。

🔒 新入驻商家需开通AI版,现有基础版将在过渡期后下架。

🤖 升级免费AI数字员工功能,助力商家高效获客与运营。

6、苹果智能家居中心再度延期至2026年中期,全新Siri成核心亮点

苹果正在开发的类似iPad的智能家居中心设备因技术问题被推迟至2026年中期发布。该设备将配备7英寸显示屏和扬声器系统,外观设计类似Google Nest Hub,并搭载专为家庭成员共同使用而设计的新操作系统Charismatic。此外,基于大型语言模型的全新Siri将成为其核心功能。

【AiBase提要:】

🍎 苹果智能家居中心因技术问题推迟至2026年中期发布。

📺 设备配备7英寸显示屏,外观设计类似Google Nest Hub。

🤖 基于大型语言模型的全新Siri将成为该设备的核心功能。

7、万兴科技抢先接入GPT-5!成首批集成OpenAI最新模型的厂商

万兴科技成功接入OpenAI的GPT-5模型,展示了其在人工智能领域的前瞻性布局,并提醒投资者关注相关风险。

【AiBase提要:】

🧠 万兴科技成功接入OpenAI的GPT-5模型,展现了其在AI技术集成方面的实力。

⚠️ 公司同时提醒投资者注意潜在风险,体现了对市场的理性态度。

🚀 GPT-5的性能提升为万兴科技在AI应用竞争中提供了新的机遇。

8、全球 AI 独角兽数量激增至 498 家,总值达 2.7 万亿美元

AI 行业正迅速崛起,吸引了大量投资和财富。目前全球已有近 500 家 AI 独角兽公司,总价值达到 2.7 万亿美元,并且在过去两年中诞生了 100 家新的独角兽公司。这表明 AI 正以创纪录的速度创造亿万富翁,并可能迎来“万亿富翁”时代。

【AiBase提要:】

🚀 全球已有 498 家 AI 独角兽,总值达到 2.7 万亿美元。

💰 过去两年中,AI 行业新创立的 100 家独角兽公司显示出迅猛的增长势头。

🌟 AI 创始人和投资者的财富激增,多个亿万富翁纷纷诞生,未来可能会迎来“万亿富翁”时代。

9、谷歌为 Slides 和 Vids 引入全新 AI 图像编辑功能,轻松替换和扩展背景

谷歌推出了基于 Gemini 的两项新 AI 图像编辑功能,分别用于替换和扩展图片背景。这些功能通过文本提示实现图像处理,提升用户在 Google Slides 和 Vids 中的创作效率。

image.png

【AiBase提要:】

🖼️ 用户可通过文本提示快速替换图片背景,适用于产品展示或统一头像背景。

📐 支持扩展图片背景,将竖屏图片转换为横屏格式,避免图像扭曲。

📅 功能预计8月14日全面上线,覆盖 Google Workspace 多个订阅版本及插件用户。

10、昆仑万维发布Skywork Deep Research Agent v2

昆仑万维发布Skywork Deep Research Agent v2,显著增强了天工超级智能体的核心引擎,引入了多模态深度调研和浏览器智能体,提升了信息处理能力和用户体验。

image.png

【AiBase提要:】

🧠 引入多模态深度调研Agent,提升信息检索与生成能力。

🌐 推出多模态深度浏览器智能体,革新社交媒体内容分析模式。

📈 Skywork Deep Research Agent v2在权威评测中表现优异,刷新行业SOTA纪录。

详情链接:https://skywork.ai

举报

  • 相关推荐
  • 马斯克母亲发帖支持儿子:演示Grok视频生成功能

    近日,马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。 她表示,这次我把手指放在了最近在X上发布的这张照片上,提示是用Grok制作视频”,现在自己的狗摇着尾巴了,自己玩得很开心。 她还特别提示,这个视频由@grok Imagine制作。

  • 腾讯混元3D世界模型在魔搭社区开源首发

    7月27日,腾讯混元3D世界模型1.0在魔搭社区开源首发。这是业界首个开源的沉浸式3D世界生成模型,支持文字/图片输入快速生成完整3D场景,将原本需要数周的建模时间缩短至几分钟。该模型显著提升了游戏开发、VR、数字内容等领域的创作效率,开发者可免费下载体验,还能通过魔搭社区提供的4000+MCP服务和调试工具进行优化训练。作为中国最大AI开源社区,魔搭已汇聚500+机构、7万+模型,覆盖36个国家1600万开发者。此前腾讯开源的混元MoE模型Hunyuan-A13B也在该社区首发。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • 腾讯旗下AI工作台ima上线新功能:支持上传文件生成AI播客

    腾讯旗下AI工作台ima迎来重大升级,以活知识库 大模型的深度耦合重构知识管理体系。 此次更新突破性地实现了多模态知识转化用户上传文件即可生成AI播客,Xmind思维导图经智能解析后自动沉淀为结构化知识库,共享知识库更支持关键信息置顶功能。 这些创新使得碎片化知识如同被注入生命力,通过动态重组转化为驱动组织进化的智能中枢。

  • 同比增长17%!腾讯Q2研发投入202.5亿元 混元3D大模型接连突破

    腾讯控股今日发布了截至6月30日的2025年第二季度财报。营收为1845亿元,同比增长15%,经营利润(Non-IFRS)692.5亿元,同比增18%。 财报显示,当季腾讯研发投入达202.5亿元,同比增长17%;资本开支 191.1亿元,同比增幅达119%。在持续加码AI战略的推动下,AI技术带来的效益正在加速显现。 AI高投入背景下,腾讯通过数据增强与合成技术,提升了数据的质量与多样性,并通过更有效�

  • 昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

    浙江大学朱凌霄团队基于昇腾AI平台,研发出首个无需训练的长序列视觉指令生成框架LIGER,解决了视频生成领域长期存在的时序一致性难题。该技术通过历史提示和视觉记忆机制保持内容连贯性,并采用基于DDIM反演的记忆校准技术提升准确性。团队还提出引导式渐进蒸馏方法,在保持视频质量基础上实现8倍加速。研究成果入选ICLR2025,构建了包含569个任务的评估数据集。未来将深化多模态生成技术研究,构建自主创新的技术生态体系。

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • 在腾讯新财报里,AI拉动广告业务连续11个季度高增

    ​腾讯发布的2025年第二季度财报交出了一份亮眼答卷——营收1845亿元,同比增长15%,不仅稳住了增长曲线,还在核心业务上打出了“加速度”。 从具体业务板块来看,如增值服务业务持续发力,第二季度收入达914亿元,同比增长16%。营销服务业务增长势头强劲,第二季度收入358亿元,同比增长20%。金融科技及企业服务业务第二季度收入555亿元,同比增长10%。 用户数据方面�

  • KTV用AI生成的MV惊现骷髅:顾客直呼“辣眼睛” 门店回应可切换

    ​近日,多名消费者在社交平台发帖吐槽魅KTV新上线的AI视频功能,称其生成的抽象画面严重破坏K歌体验。 走访多家魅KTV门店发现,部分门店已全面启用该AI系统。某门店工作人员透露,系统更新后所有歌曲默认播放AI生成视频,“但90%的顾客都会要求切换回原版MV,包厢服务人员可现场操作”。另一未更新系统的门店则表示,顾客仍可正常观看原唱MV。

  • 腾讯加速造“世界”

    ​“如果没有开源,没有去和社区交流,我们靠闭门造车是空想不出来的。”近日,在接受字母榜独家专访时,腾讯混元3D团队负责人郭春超这样说道。 郭春超的感慨来自于在近期的开源社区中,国产模型“搅动”了整个大模型业界的开源生态, Hugging Face的模型热度榜单被中国企业连续“霸榜”。最多时,前10开源席位中有9个来自中国。在排名前几的选手中,除了 “Text Genera

今日大家都在搜的词: