首页 > 原创 > 关键词  > AI模型最新资讯  > 正文

AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

2025-09-23 15:56 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、阿里云推出全球首个全模态 AI 模型 Qwen3-Omni,实现文本、图像、音频与视频的统一处理

阿里云发布了 Qwen3-Omni,这是全球首个原生端到端全模态 AI 模型,支持文本、图像、音频和视频的统一处理。该模型在多个领域展现出跨模态的先进表现,并且已开源,能够满足全球用户的多语言需求。

image.png

【AiBase提要:】

🌟 Qwen3-Omni 是全球首个原生端到端全模态 AI 模型,支持文本、图像、音频和视频的统一处理。

🌐 模型支持119种文本语言和19种语音输入,能够满足全球用户的多语言需求。

🖼️ 新发布的 Qwen-Image-Edit-2509 支持多图像编辑,显著提升编辑的一致性和效果。

详情链接:https://github.com/QwenLM/Qwen3-Omni huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

2、告别P图烦恼!阿里Qwen-Image多图像编辑功能一键合成专业级广告大片

文章介绍了阿里巴巴旗下AI图像编辑工具Qwen-Image的重大功能升级,包括新增多图像编辑功能、引入ControlNet关键点地图技术以及扩展应用场景至模因制作,为电子商务和数字营销行业提供了更高效的解决方案。

image.png

【AiBase提要:】

🖼️ 新增多图像编辑功能,支持人+人、人+产品、人+场景的灵活组合。

⚙️ 引入ControlNet关键点地图功能,提升人物姿势控制精度。

🛒 扩展应用场景,支持模因制作,助力电商和营销行业。

详情链接:https://chat.qwen.ai/?inputFeature=image_edit

3、百度推出 Qianfan-VL 模型 多尺寸模型满足不同场景需求

百度智能云千帆团队推出了全新视觉理解模型 Qianfan-VL,该模型包括3B、8B 和70B 三种尺寸,针对企业级多模态应用进行了深度优化。Qianfan-VL 在OCR、教育场景和数学解题方面表现出色,并且在基准测试中展现了出色的通用能力和特定任务的优秀表现。

【AiBase提要:】

🧠 多尺寸模型满足不同场景需求

📊 8B 和70B 模型具备思考推理能力

📄 OCR 和文档理解表现优异

详情链接:https://baidubce.github.io/Qianfan-VL/

4、谷歌推出 AP2 协议,携手 PayPal 开启 AI 支付新时代

谷歌推出的AP2协议为AI支付提供了安全可靠的框架,通过授权令牌机制确保交易的合法性和安全性,同时与PayPal合作推动AI在支付领域的创新和应用。

image.png

【AiBase提要:】

🛒 AP2协议为AI支付提供安全授权机制,确保交易合法性。

🤝 谷歌与PayPal合作,推动AI在支付领域的实际应用。

🔒 授权令牌系统明确责任划分,提升交易透明度。

详情链接:https://github.com/google-agentic-commerce/AP2

5、苹果扩展图像生成平台:Image Playground 将引入更多第三方AI模型

苹果在 macOS Tahoe26、iPadOS26 和 iOS26 中对 Image Playground 进行了重大更新,引入了 ChatGPT 作为图像生成模型,并计划支持更多第三方模型,如 Google 的 Gemini2.5Flash Image。

image.png

【AiBase提要:】

🍎 苹果扩展 Image Playground 支持更多第三方 AI 模型,包括 OpenAI 和 Google 的 Gemini2.5Flash Image。

⚙️ 新增“估计延迟”指标和“提供商标识符”,表明苹果正在优化模型选择机制。

🔒 苹果可能更倾向于与外部合作伙伴合作,而非直接支持开源模型,以确保图像生成工具的安全性。

6、一键变身学习机!百度搜索推出AI伴学

百度推出AI伴学,通过AI技术将普通手机转变为学习机,为学生提供精准练、口语训练等功能,助力教育公平和资源普及。

【AiBase提要:】

📚 AI伴学通过AI技术将普通手机变为学习机,提升教育公平性。

🗣️ 提供AI口语、作文批改等工具,助力学生个性化学习。

🌍 百度教育团队利用文心4.5等技术推动教育资源整合与普及。

7、钉钉AI表格助理正式上线:一句话生成表格,打造企业级AI应用平台

钉钉推出AI表格助理,将AI表格升级为面向AI时代的应用创建平台。用户只需更新到最新版本,即可体验这一新功能。AI表格助理支持自然语言描述想法,自动生成表格、自动化工作流和数据分析仪表盘,大大降低了使用门槛。

【AiBase提要:】

✨ AI表格助理支持自然语言描述想法,自动生成表格、自动化工作流和数据分析仪表盘。

🚀 引入字段Agent,新增30款Agent,支持AI视频理解、数字人等多模态AI能力。

🌐 跨平台工作流支持,新增对百炼、Coze等平台工作流的支持,实现跨平台的数据汇总和分析。

8、DeepSeek-V3.1-Terminus 重磅发布:性能全面提升,深度推理能力显著增强

DeepSeek 发布了 DeepSeek-V3.1-Terminus 模型,并将其开源。该模型在原有基础上修复了语言不一致和异常字符问题,优化了编程和搜索智能体的性能。基准测试数据显示,其性能提升了0.2%至36.5%,尤其在高难度知识、多模态和深度推理方面表现突出。

【AiBase提要:】

🧠 DeepSeek-V3.1-Terminus 模型性能全面升级,提升幅度达0.2%-36.5%

🚀 重点优化了编程和搜索智能体的性能,解决了旧版的语言不一致问题

🔍 在 HLE 测试中表现尤为出色,展示了强大的深度推理与多模态处理能力

详情链接:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

9、Kimi Agent会员惊喜上线!打赏秒变9个月VIP,49元享超值AI深度研究

Kimi推出了全新的Agent会员服务,为早期打赏用户提供了额外的福利,同时通过音乐节拍命名的会员体系,展现了品牌创意。深度研究功能基于专有模型,提供专业洞见,推动了AI助手向智能化代理演进。

image.png

【AiBase提要:】

✨ Kimi推出Agent会员服务,打赏用户可获得额外会员时长。

🎵 会员体系以古典音乐节拍术语命名,融合艺术与科技。

🔍 深度研究功能基于专有模型,提供多维度观点分析和认知发现。

10、全球首个通用具身智能模型开源!智元机器人GO-1震撼来袭

智元机器人宣布其GO-1通用具身基座大模型全面开源,这是全球首个采用ViLLA架构的具身智能模型,能够理解和执行复杂任务。这一举措将推动具身智能的应用和研究,降低技术门槛,并吸引更多的开发者参与该生态系统,促进跨领域的创新与合作。

【AiBase提要:】

🤖 GO-1是全球首个采用ViLLA架构的具身智能模型,结合视觉、语言和潜在动作能力。

💡 开源GO-1将推动具身智能的应用和研究,降低技术门槛。

🌐 智元机器人希望吸引更多开发者参与具身智能生态系统,促进跨领域创新与合作。

举报

  • 相关推荐
  • AI落地难?阿里云AI先锋新成员实战证明,对症的场景化方案才是关键

    本文探讨AI技术如何通过精准定位与协同合作破解行业难题。文章指出,AI渗透速度远超传统技术,IDC预测2025年全球AI支出将达3370亿美元。以阿里云为例,其通过算力底座与通用技术链接垂直领域伙伴,提供"技术+场景"一体化方案。文中列举挖地兔、集思科技等6家企业案例,展示AI在量化投资、电商直播等场景的实际应用,强调AI落地需找准对应场景,而阿里云的技术支撑与生态协同正推动千行百业实现数字化转型。

  • 模型即服务,应用即未来:阿里云助力中小企业AI应用规模化落地

    阿里云针对中小企业AI落地“不会用、用不起、用不好”痛点,提出全链路解决方案。数据显示,77%全球中小企业已定期使用AI工具,中国市场需求增长强劲。阿里云通过通义大模型技术迭代、AIStack一体化底座及4R服务框架,降低使用门槛与成本。典型案例如万小智AI员工实现“分钟级交付”,博登智能提升数据处理效率7倍。方案覆盖制造、医疗等12大行业,助力企业从“有算力”到“能落地”,推动AI应用成为行业常态。

  • 云栖大会智舱黑科技:全球首个全模态端侧大模型解决方案,斑马智行首发

    9月24日,2025云栖大会在杭州开幕,主题为“云智一体·碳硅共生”,汇聚全球50多国2000余位嘉宾探讨AI、云计算与产业应用趋势。阿里云发布7款通义大模型,其中Qwen3-Omni作为行业首个端到端全模态AI大模型,在36项基准测试中实现22项SOTA,性能全面突破。大会聚焦多模态技术,斑马智行宣布率先接入Qwen3-Omni,并与阿里云、高通联合推出端到端全模态端侧大模型方案Auto+Omni,具备主动智能、断网可用、隐私无忧三大特点,推动汽车智能座舱从指令交互向Always-on主动服务升级。首批搭载方案车型将于2026年量产,标志着汽车智能化迈入“自主行动”新阶段。大会将持续至26日,预计更多创新技术将亮相。

  • AI日报:阿里云开源通义DeepResearch;夸克推医师考试大模型

    本期AI日报聚焦多项前沿动态:阿里云开源轻量级AI代理DeepResearch,性能媲美OpenAI;夸克推出国内首个全阶段医师考试大模型测试集;微软Copilot将上线类ChatGPT记忆管理功能;迪士尼等巨头起诉MiniMax侵犯版权;OpenAI提升ChatGPT搜索准确性;Notion推出个性化AI助手;谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5;Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

  • Qwen3-Max成阿里通义“地表最强”:性能超GPT5 数学推理直接满分

    9月24日,2025云栖大会开幕,阿里通义千问旗舰模型Qwen3-Max重磅亮相,性能超越GPT-5、Claude+Opus 4等,跻身全球前三。该模型包含指令和推理两大版本,预训练数据量达36T tokens,总参数超万亿,具备极强编程和工具调用能力。在SWE-Bench测试中,指令版斩获69.6分全球第一;Tau2-Bench工具调用测试达74.8分,超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分,国内首次突破。通义千问系列已实现全尺寸覆盖,包含三百多个模型。即日起,用户可在QwenChat免费体验Qwen3-Max,或通过阿里云百炼平台调用API服务。

  • 小度发布多模态智能摄像机,AI大模型重塑家庭看护体验

    小度科技推出首款多模态智能摄像机C800,搭载800万像素4K超清摄像头,支持AI大模型技术。该产品不仅能实现高清监控,还具备智能行为识别、语音交互等功能,可自定义看护提醒。结合视觉与语音交互,支持复杂语义查询和家庭设备联动,扩展智能家居应用场景。目前产品已全网发售,年底还将推出三摄版本,持续探索AI硬件创新。

  • 云栖大会|双AI平台公测首发,西门子Xcelerator携全栈智能方案亮相前沿应用馆

    在2025云栖大会上,西门子Xcelerator首发两大AI创新平台:AI知识库开发平台1.0基于RAG技术,助力企业快速构建智能知识库;工业AI智能体开发平台提供多行业场景模板与5300余款插件,支持零代码开发。现场通过产品矩阵与生态联合方案,展示AI如何赋能工业自动化、碳管理及建筑数字化,推动企业效率提升与低碳转型。

  • 2025 云栖大会|云通信+AI:释放通信新动能

    2025年9月25日,阿里云成功举办“云栖大会云通信分论坛”,聚焦大模型在云通信中的创新应用与全球化实践。论坛汇聚Meta、雨果跨境等生态伙伴,探讨行业趋势,剖析技术机遇与挑战。阿里云发布Chat App AI助理和智能联络中心2.0,展示智能化探索成果,强调合规化与智能化并重,推动通信服务从基础功能向个性化、自动化升级。通过AI与消息引擎结合,助力企业打通公域到私域的全链路增长,实现高效全球化运营与本地化深耕。

  • 腾讯云以“云+AI”助力金融数智化升级 已打造100+AI应用场景最佳实践

    腾讯云在2025全球数字生态大会上强调,人工智能已成为金融业提升效率与生产力的战略支柱。腾讯云已积累100多个AI应用场景的最佳实践,覆盖银行、保险、证券等领域,并发布TBDS多模态智能数据湖金融解决方案,助力金融机构实现数据与AI一体化存储计算。通过“云+AI”战略,腾讯云支持金融业应对行业转型、客户需求升级等挑战,推动数字化智能化发展。

  • 全球AI计算规模效应拐点凸显,谷歌/阿里/微美全息开启云智算“战略博弈”之争

    谷歌作为英伟达顶级芯片大买家,通过云服务向OpenAI等客户提供算力,同时加速自研AI芯片布局。阿里巴巴加大AI与云计算投资,与博世深化合作推动企业数字化转型。微美全息构建全场景算力覆盖体系,聚焦新型算力系统突破。AI产业持续发力,从消费转向AI与云计算投资,行业有望受益于新老玩家共同推动的高韧性增长。AI算力应用价值进一步凸显,推动技术迭代与行业水平提升。

今日大家都在搜的词: