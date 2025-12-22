首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报：千问发布分层图像编辑模型Qwen-Image-Layered；Kling2.6新增语音控制和动作控制功能；谷歌推出A2UI开放标准

2025-12-22 16:32 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、阿里通义千问 Qwen 发布分层图像编辑模型Qwen-Image-Layered，一键生成“Photoshop图层”

阿里通义千问 Qwen 发布了分层图像编辑模型 Qwen-Image-Layered，该模型能够将静态照片分解为多个具有透明背景的独立 RGBA 图层，使 AI 图像编辑具备类似 Photoshop 的结构化操作能力。用户可以对特定图层进行精准控制，如缩放、重新定位、更换颜色等，而不会干扰其他部分。此外，该模型的分层过程是可重复的，允许进一步细分以实现更高精度的修改。目前，该模型的代码已开源，开发者和用户可以在 Hugging Face 和魔搭社区获取并测试。

image.png

【AiBase提要:】

📸 实现自动化分层 :能将单层照片智能拆解为多个带透明通道的独立 RGBA 图层，让普通图片秒变“可编辑的 PS 稿”。

🎨 精准无损编辑 :支持独立调整特定图层的大小、位置与颜色，实现人物替换或背景改色而不影响画面其他元素。

🔓 全栈技术开源 :模型代码已在 GitHub 上线，并提供在线演示，旨在推动 AI 图像编辑向结构化、专业化转型。

详情链接:https://modelscope.cn/models/Qwen/Qwen-Image-Layered

2、Claude Chrome插件正式全量开放！付费用户瞬间拥有AI浏览器助手

Anthropic宣布Claude Chrome扩展插件全面开放给所有Claude Pro、Team、Enterprise付费用户，无需排队或申请。该插件通过常驻侧边栏设计和多标签协作功能，改变了AI与网页的交互方式，同时新增了浏览器内代码执行与调试能力，为开发者提供了更高效的编程体验。

【AiBase提要:】

🧠 常驻侧边栏设计，支持多标签协作

💻 浏览器内代码执行与调试功能

🚀 付费用户专属，确保服务稳定性和数据安全

3、告别僵硬AI视频!快手Kling2.6让你的声音活在AI角色里，复杂舞蹈动作也能完美复刻

快手Kling2.6版本的更新在AI视频生成领域带来了显著突破，通过语音控制和动作控制两大核心功能，提升了视频生成的精确度和多样性。同时，其价格优势和市场布局也增强了竞争力。

image.png

【AiBase提要:】

🔊语音控制功能实现声音与视频内容的精准匹配

💃动作控制升级提升复杂全身动作的处理精度

💰价格优势与市场布局增强竞争力

4、AI独角兽MiniMax通过港交所上市聆讯:阿里腾讯联手押注

MiniMax作为一家年轻的AI初创公司，通过港交所上市聆讯，展现了其在通用人工智能领域的强大实力和市场潜力。

【AiBase提要:】

🚀 MiniMax通过港交所上市聆讯，成为最快完成IPO的AI科技公司。

💼 公司获得阿里、腾讯等巨头投资，构建了成熟的产品矩阵。

💰 截至2025年9月，公司持有现金结余达10.46亿美元，研发支出仅约5亿美元。

5、三星联手谷歌！全球首款Gemini AI冰箱CES前夕曝光，食材识别+红酒管家全靠AI

三星与谷歌合作推出全球首款搭载Gemini大模型的AI冰箱，通过AI视觉技术实现食材识别、食谱推荐和红酒管理，标志着智能家居迈入主动服务的新时代。

【AiBase提要:】

🍎 智能识别食材，推荐食谱并生成购物清单

🍷 红酒识别与品鉴，提供专业配餐建议

🤖 AI与硬件深度耦合，重新定义智能家居体验

6、北京人形机器人推出国内首个符合国标的 VLA 大模型 XR-1

北京人形机器人创新中心成功开源了国内首个符合具身智能国家标准的VLA大模型XR-1，标志着中国在智能机器人领域的重大突破。该模型具备跨平台运行能力，能够执行复杂的双臂操作，并与配套资源如RoboMIND2.0和ArtVIP结合，为开发者提供强大的数据支持。

image.png

【AiBase提要:】

🔥 XR-1是首个符合国标的VLA大模型，推动中国智能机器人技术发展。

🤖 具备跨平台运行能力，可在多种机器人平台上实现复杂操作。

📊 配套资源包括RoboMIND2.0和ArtVIP，助力开发者和研究人员创新。

7、谷歌推出A2UI开放标准:让AI代理秒变界面设计师，告别枯燥文字对话

谷歌推出的A2UI开放标准，使AI代理能够即时创建图形界面，从而改变传统的文本交互方式，提升用户体验和效率。

image.png

【AiBase提要:】

📅 A2UI标准让AI代理能即时生成图形界面，提升交互效率。

🔒 通过传输结构化数据而非代码，增强安全性与灵活性。

🌐 A2UI是开放标准，适用于多种平台，推动AI界面创新。

8、AI绘画提示词新利器：PromptFill上线！

文章介绍了PromptFill这一开源结构化提示词生成工具，通过填空式交互降低AI绘画的门槛，解决复杂Prompt编写难题，并强调其在提升创作效率和隐私保护方面的优势。

image.png

【AiBase提要:】

🧠 填空式交互简化Prompt创作，提升AI绘画效率。

🔄 支持本地隐私保护与多模板管理，适合各类用户。

🌐 开源社区推动工具持续优化，助力AI创作普及。

详情链接:https://github.com/TanShilongMario/PromptFill

举报

  • 相关推荐
关键词：

  • PS天塌了！阿里开源全新图像模型Qwen-Image-Layered 可实现PS级图层

    阿里开源全新图像生成模型Qwen-Image-Layered，首次在模型内实现PS级的图层理解与图像生成。 千问新模型采用自研创新架构，可将图片拆解”成多个图层，就像个专业设计师用Photoshop分层作图修图，可实现几乎零漂移”的AI图像精准编辑，彻底解决AI生图的一致性难题，加速大模型在专业设计领域的现实落地。 Qwen-Image-Layered打破了主流视觉大模型的扁平式思维”，模型通过分层�

    ​图像生成模型 ​Qwen-Image-Layered ​AI图像精准编辑

  • 阿里Z-Image登顶开源图像生成模型榜单：1秒生图 千图仅需5美元

    今日，阿里Z-Image登顶开源图像生成模型榜单。 全球权威AI基准测试平台ArtificialAnalysis公布最新的图像模型榜单，阿里6B参数Z-Image Turbo超越32B的FLUX.2，成为最强开源图像生成模型。 目前，该模型已在阿里云百炼上线，生成1千张图片仅需5美元。 Z-Image Turbo的ELO分数达到1152，也刷新了榜单纪录。 业内人士认为，这是业界性能最好、生成速度最快、价格最便宜的图像生成模型之�

    ​开源图像生成模型 ​阿里Z-Image ​AI基准测试

  • AI日报：蚂蚁发布“阿福”App；OpenAI Sora 安卓版开发揭秘；Figma AI图像编辑功能上新

    本期AI日报聚焦多项AI领域新动态：OpenAI利用GPT-5.1-Codex高效开发Sora安卓版，85%代码由AI生成；蚂蚁集团升级AI健康应用“蚂蚁阿福”，新增健康陪伴等功能；Figma推出AI图像编辑工具，提升设计效率；深圳地铁上线全球首款AI导盲犬“小蒜”，服务视障人士；Adobe将Photoshop等工具集成至ChatGPT界面，方便用户编辑；OpenAI十周年推出Sora收藏卡等周边产品；谷歌Gemini新增NotebookLM功能，聊天可直接附加笔记；OpenAI计划推出ChatGPT“成人模式”，预计2026年前上线。

    ​AI开发 ​OpenAI ​Sora

  • 阿里两款千问语音新模型齐发：动物也能“原声”说人话了！

    阿里今日升级语音模型家族Qwen3-TTS，发布音色创造Qwen3-TTS-VD和音色克隆Qwen3-TTS-VC两款全新模型。 在生成效果上，全新模型的表现显著超越GPT-4o。 Qwen3-TTS新模型可实现DIY声音设计和像素级音色模仿，甚至让动物原生”开口说人话。 其音色自然、效果稳定、生成高效，可大大加速语音大模型在有声小说、AI漫剧、影视配音等多专业领域落地。 其中，音色创造模型支持通过自然�

    ​语音模型 ​Qwen3-TTS ​音色克隆

  • 千问爆火、Gemini 3翻身，阿里和谷歌的同题异解

    全球AI To C的市场局势，似乎悄然发生了转变。 以OpenAI、DeepSeek等为代表的AI创业公司，凭借着对大模型技术能力的突破，在AI To C的应用市场中占据着领导者地位。 与之相对的，是原本在移动互联网时代的大厂们，如谷歌、阿里巴巴等，似乎在过去这段时间中，C端的AI应用远未达到预期。 但最近，不管是谷歌，还是阿里，都凭借着AI打了一场漂亮的“翻身仗”。

    ​AI ​大模型 ​OpenAI

  • 千问月活破3000万，阿里打响AI应用落地战

    12月9日，新浪科技报道称阿里巴巴已成立“千问C端事业群”。据悉，该事业群由原智能信息与智能互联两个事业群合并重组而来，由阿里巴巴集团副总裁吴嘉负责。其业务范围包含千问APP、夸克、AI硬件、UC、书旗等。 一天之后，已公测23天的千问，在官方微信公众号上宣布月活破3000万，并向用户开放AI PPT、AI写作、AI文库、AI讲题四项办事新功能。

    ​阿里巴巴 ​千问C端事业群 ​AI应用

  • 千问App将全面接入高德：找餐厅、查路线从未如此方便

    千问APP全面接入高德，用户可通过千问App快速了解周边，找到可靠的吃、玩与生活服务地点。千问能结合高德扫街榜帮用户快速找到合适的餐厅，还能结合高德地图实时路况规划最合适的路线。它还能一次处理多个需求，比如规划出行路线并推荐沿途咖啡店等，实现导航与生活服务的无缝衔接。此外，千问App还能帮你规划沿途充电站，显示限行信息，提供收费站和服务区等信息。

    ​千问APP ​高德地图 ​生活服务

  • AI日报：OpenAI推图片模型GPT Image 1.5；腾讯发布混元世界模型1.5；小米开源MiMo-V2-Flash大模型

    本期AI日报聚焦多领域AI新进展：OpenAI推出图像生成模型GPT Image 1.5，性能显著提升；腾讯发布混元世界模型1.5，开启实时交互虚拟世界；小米开源3090亿参数大模型MiMo-V2-Flash，推理速度领先；字节跳动发布Seedance 1.5 Pro，实现视听同步创作；Apple Music将与ChatGPT集成，简化歌单创建；Gemini预测市场全美上线，支持事件预测交易；Adobe Firefly视频功能升级，支持精准提示编辑；谷歌实验室推出AI助手CC，集成Gemini技术管理日程。

    ​AI ​OpenAI ​图像生成

  • 千问三连发背后的三条主线

    品牌焕新后，阿里AI助手“千问”，马不停蹄地进入到了产品升级周。 十二月一周三连发，千问分别在办公、学习和视频等方面迎来全新迭代。这让外界清晰感受到一种大厂中的“创业公司”节奏，敏捷、密集且全力以赴。 “千问开源大模型已经具备了一定领先优势，接下来的重点是如何将技术落地到工作、学习、生活中的具体应用，满足用户在各个场景的需求”，千问团�

    ​阿里AI助手 ​千问升级 ​办公学习

  • AI日报：字节发布Seed Prover1.5；MiniMax M2.1开源；通义开源语音交互大模型Fun-Audio-Chat-8B

    本期AI日报聚焦多项AI领域新进展：字节跳动发布Seed Prover 1.5，在形式化数学推理领域取得突破；阿里通义开源语音交互模型Fun-Audio-Chat-8B，具备超低延迟和情感感知能力；MiniMax开源M2.1编码模型，性能超越闭源巨头；知乎发布2025年度AI产品榜单，豆包位居榜首；Anthropic推出开源Agent Skills知识库，助力Claude模型技能拓展；Lima v2.0发布，从容器工具进化为安全AI工作流平台；讯飞星�

    ​AI ​形式化数学推理 ​字节跳动

今日大家都在搜的词：

热文

  • 3 天
  • 7天

站长商机

广告

商务合作 侵权投诉 广告服务 版权声明 招聘

©CopyRight 2002-2020 CHINAZ.COM