AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

2025-09-23 15:56 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://app.aibase.com/zh

1、阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

阿里云发布了 Qwen3-Omni，这是全球首个原生端到端全模态 AI 模型，支持文本、图像、音频和视频的统一处理。该模型在多个领域展现出跨模态的先进表现，并且已开源，能够满足全球用户的多语言需求。

【AiBase提要:】
🌟 Qwen3-Omni 是全球首个原生端到端全模态 AI 模型，支持文本、图像、音频和视频的统一处理。
🌐 模型支持119种文本语言和19种语音输入，能够满足全球用户的多语言需求。
🖼️ 新发布的 Qwen-Image-Edit-2509 支持多图像编辑，显著提升编辑的一致性和效果。
详情链接:https://github.com/QwenLM/Qwen3-Omni huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

2、告别P图烦恼!阿里Qwen-Image多图像编辑功能一键合成专业级广告大片

文章介绍了阿里巴巴旗下AI图像编辑工具Qwen-Image的重大功能升级，包括新增多图像编辑功能、引入ControlNet关键点地图技术以及扩展应用场景至模因制作，为电子商务和数字营销行业提供了更高效的解决方案。

【AiBase提要:】
🖼️ 新增多图像编辑功能，支持人+人、人+产品、人+场景的灵活组合。
⚙️ 引入ControlNet关键点地图功能，提升人物姿势控制精度。
🛒 扩展应用场景，支持模因制作，助力电商和营销行业。
详情链接:https://chat.qwen.ai/?inputFeature=image_edit

3、百度推出 Qianfan-VL 模型多尺寸模型满足不同场景需求

百度智能云千帆团队推出了全新视觉理解模型 Qianfan-VL，该模型包括3B、8B 和70B 三种尺寸，针对企业级多模态应用进行了深度优化。Qianfan-VL 在OCR、教育场景和数学解题方面表现出色，并且在基准测试中展现了出色的通用能力和特定任务的优秀表现。

【AiBase提要:】
🧠 多尺寸模型满足不同场景需求
📊 8B 和70B 模型具备思考推理能力
📄 OCR 和文档理解表现优异
详情链接:https://baidubce.github.io/Qianfan-VL/

4、谷歌推出 AP2 协议，携手 PayPal 开启 AI 支付新时代

谷歌推出的AP2协议为AI支付提供了安全可靠的框架，通过授权令牌机制确保交易的合法性和安全性，同时与PayPal合作推动AI在支付领域的创新和应用。

【AiBase提要:】
🛒 AP2协议为AI支付提供安全授权机制，确保交易合法性。
🤝 谷歌与PayPal合作，推动AI在支付领域的实际应用。
🔒 授权令牌系统明确责任划分，提升交易透明度。
详情链接:https://github.com/google-agentic-commerce/AP2

5、苹果扩展图像生成平台:Image Playground 将引入更多第三方AI模型

苹果在 macOS Tahoe26、iPadOS26 和 iOS26 中对 Image Playground 进行了重大更新，引入了 ChatGPT 作为图像生成模型，并计划支持更多第三方模型，如 Google 的 Gemini2.5Flash Image。

【AiBase提要:】
🍎 苹果扩展 Image Playground 支持更多第三方 AI 模型，包括 OpenAI 和 Google 的 Gemini2.5Flash Image。
⚙️ 新增“估计延迟”指标和“提供商标识符”，表明苹果正在优化模型选择机制。
🔒 苹果可能更倾向于与外部合作伙伴合作，而非直接支持开源模型，以确保图像生成工具的安全性。

6、一键变身学习机！百度搜索推出AI伴学

百度推出AI伴学，通过AI技术将普通手机转变为学习机，为学生提供精准练、口语训练等功能，助力教育公平和资源普及。

【AiBase提要:】
📚 AI伴学通过AI技术将普通手机变为学习机，提升教育公平性。
🗣️ 提供AI口语、作文批改等工具，助力学生个性化学习。
🌍 百度教育团队利用文心4.5等技术推动教育资源整合与普及。

7、钉钉AI表格助理正式上线：一句话生成表格，打造企业级AI应用平台

钉钉推出AI表格助理，将AI表格升级为面向AI时代的应用创建平台。用户只需更新到最新版本，即可体验这一新功能。AI表格助理支持自然语言描述想法，自动生成表格、自动化工作流和数据分析仪表盘，大大降低了使用门槛。

【AiBase提要:】
✨ AI表格助理支持自然语言描述想法，自动生成表格、自动化工作流和数据分析仪表盘。
🚀 引入字段Agent，新增30款Agent，支持AI视频理解、数字人等多模态AI能力。
🌐 跨平台工作流支持，新增对百炼、Coze等平台工作流的支持，实现跨平台的数据汇总和分析。

8、DeepSeek-V3.1-Terminus 重磅发布:性能全面提升，深度推理能力显著增强

DeepSeek 发布了 DeepSeek-V3.1-Terminus 模型，并将其开源。该模型在原有基础上修复了语言不一致和异常字符问题，优化了编程和搜索智能体的性能。基准测试数据显示，其性能提升了0.2%至36.5%，尤其在高难度知识、多模态和深度推理方面表现突出。

【AiBase提要:】
🧠 DeepSeek-V3.1-Terminus 模型性能全面升级，提升幅度达0.2%-36.5%
🚀 重点优化了编程和搜索智能体的性能，解决了旧版的语言不一致问题
🔍 在 HLE 测试中表现尤为出色，展示了强大的深度推理与多模态处理能力
详情链接:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

9、Kimi Agent会员惊喜上线！打赏秒变9个月VIP，49元享超值AI深度研究

Kimi推出了全新的Agent会员服务，为早期打赏用户提供了额外的福利，同时通过音乐节拍命名的会员体系，展现了品牌创意。深度研究功能基于专有模型，提供专业洞见，推动了AI助手向智能化代理演进。

【AiBase提要:】
✨ Kimi推出Agent会员服务，打赏用户可获得额外会员时长。
🎵 会员体系以古典音乐节拍术语命名，融合艺术与科技。
🔍 深度研究功能基于专有模型，提供多维度观点分析和认知发现。

10、全球首个通用具身智能模型开源！智元机器人GO-1震撼来袭

智元机器人宣布其GO-1通用具身基座大模型全面开源，这是全球首个采用ViLLA架构的具身智能模型，能够理解和执行复杂任务。这一举措将推动具身智能的应用和研究，降低技术门槛，并吸引更多的开发者参与该生态系统，促进跨领域的创新与合作。

【AiBase提要:】
🤖 GO-1是全球首个采用ViLLA架构的具身智能模型，结合视觉、语言和潜在动作能力。
💡 开源GO-1将推动具身智能的应用和研究，降低技术门槛。
🌐 智元机器人希望吸引更多开发者参与具身智能生态系统，促进跨领域创新与合作。

（举报）

相关推荐

关键词：

工程师变身AI“指挥者”，吉利与阿里云的软件开发变革实验

1975年，IBM工程师Fred Brooks在《人月神话》中指出软件工程的核心难题：系统与团队规模增长会导致复杂度指数级上升，且“没有银弹”能单一提升生产力。如今汽车行业正经历软件史上最大挑战，吉利汽车软件人员占比从不足10%跃升至40%，智能汽车代码量超亿行。面对异构系统协同、安全标准严苛等难题，吉利与阿里云通义灵码深度合作，通过AI生成代码（占比超30%）、代码审查测试等，提升开发效率20%，并探索用AI破解遗留系统维护、知识传递等痛点。工程师角色正从“执行者”转向“AI指挥官”，未来或实现从需求到交付的全流程自动化协同。

软件工程复杂度智能汽车
无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

1980年代汉斯·莫拉维克提出人工智能悖论：计算机在逻辑推理等高级智能活动中易超越人类，但实现儿童般的感知与常识认知却极困难。智能驾驶的核心挑战在于让AI理解物理世界并进行因果推理。视觉-语言-行动模型通过融合多模态数据，使系统具备推理驾驶能力，推动行业迈向L5完全自动驾驶。面对VLA模型的数据处理、训练效率和成本挑战，阿里云等超级AI云提供全栈解决方案，从算力基础设施到开源生态，加速技术迭代与商业化落地。

人工智能莫拉维克悖论智能驾驶
荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

本期AI日报涵盖八大热点：Lovart AI推出"元素拆分"功能，实现海报智能分层编辑；苹果Xcode 26.1.1优化AI编码性能；阿里云通义模型双11单日翻译调用量突破14亿次；Gemini 3在历史手稿破译中展现专家级能力；德国法院裁定OpenAI使用歌词训练构成侵权；开源语音模型Maya1实现富有表现力的实时文本转语音；Meta首席AI科学家LeCun计划离职创办世界模型公司；AI专家罗福莉加入小米，将致力于构建物理世界智能。

AI设计元素拆分海报编辑
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

本期AI日报聚焦多领域技术突破：美团发布全模态交互模型LongCat-Flash-Omni；阿里通义千问Qwen3-Max上线深度思考功能；百度文心5.0升级多模态生成能力；谷歌确认Gemini3年内发布并整合至苹果Siri；OpenAI向多国开放Sora2视频工具；云存储与AI开发工具持续优化，展现行业加速迭代态势。

AI 多模态实时交互
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
荐双11“换芯” 阿里妈妈AI按下加速键

今年双11的不同，在平台对外披露的商家案例中得以一窥究竟。 AI智能选品、AI智能出价、AI智能调控投放节奏..... 这些营销策略的表述来自音箱品牌Marshall，双11第一波段10天活动期内，Marshall在影音电器行业品牌和店铺排名均位居第一;成交转化率提升67%，爆款成交同比增长30%。这波爆发式增长的背后，反复被CUE到的AI可以说是深藏功与名。绝非只是平台意志的表达，

AI智能选品 AI智能出价 AI智能调控
阿里夸克AI眼镜S1宣布11月27日发布

阿里巴巴旗下首款旗舰双显AI眼镜夸克AI眼镜S1将于11月27日上市。产品融合前沿显示、拍摄与交互技术，以双目光机二维衍射波导方案实现低反光率高透性视觉体验，支持环境光智能调节与自定义显示位置。搭载索尼IMX681传感器与1200万超广角镜头，具备极速抓拍、3K视频及超级夜景功能。创新双电池架构与MiniBag换电仓解决续航痛点，支持手势与语音双操作。集成高德导航、支付宝“看一看”支付及办公辅助工具，通过眨眼或语音即可完成路线查询与快捷支付，覆盖生活全场景智能生态。

夸克AI眼镜S1 阿里巴巴智能眼镜
荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

国家广电总局宣布自2026年3月起全面整治AI生成内容，要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》，提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro，集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX，实现文本化语音编辑。Grok新增纯文本生成视频功能，17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠，并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型，优化开发者体验。

AI动画广电总局 AIGC审核
荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

近期AI炒币大赛Alpha Arena引发关注，六款主流大模型用1万美元本金在币圈实战。戏剧性的是，被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重，而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶，DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen，投资人Chamath也承认将业务转向中国模型。市场用真金白银投票：预测平台押注Qwen胜率高达36%，远超OpenAI的3%。这场竞赛�

AI炒币大赛 Alpha Arena

今日大家都在搜的词：

热文

3 天
7天

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

工程师变身AI“指挥者”，吉利与阿里云的软件开发变革实验

无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

荐双11“换芯” 阿里妈妈AI按下加速键

阿里夸克AI眼镜S1宣布11月27日发布

荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

今日大家都在搜的词：

热文

iPhone Pocket正式开售：联名三宅一生售价1299元起

1899元苹果手机包卖完了！iPhone Pocket在吐槽声中销售火爆

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT

微信小程序将在iOS端支持接入虚拟支付苹果抽成15%

华为WATCH ULTIMATE DESIGN非凡大师紫金款明天开启预售

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

雷军回应小米双11战绩：谢谢大家支持

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

卢伟冰：小米手机双11连续三年国产销量第一

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

95岁巴菲特每周还上5天班此前计划年底退休

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

站长商机