首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:阿里千问APP公测;Veo 3.1上线多图参考;小爱AI大模型“随心修图”上线

2025-11-17 16:02 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、阿里千问APP公测,与ChatGPT展开全面竞争

阿里巴巴推出的千问APP,基于Qwen3模型,旨在与ChatGPT展开全面竞争。千问APP公测版已在各大应用商店上线,并计划推出国际版。此外,Qwen3-Max的性能已超越GPT5等国际模型,成为全球前三。

image.png

【AiBase提要:】

🧠 阿里巴巴推出千问APP,基于Qwen3模型与ChatGPT竞争。

🚀 千问APP公测版已上线,并计划推出国际版争夺海外市场。

📈 Qwen3-Max性能超越GPT5等国际模型,成为全球前三。

2、Gemini Veo 3.1上线多图参考 一次合成三元素视频

谷歌向Gemini Pro/Ultra订阅用户推送Veo 3.1视频模型,新增“Ingredients to Video”模式,支持同时上传三张参考图,分别提取人物、场景与风格特征并融合为8秒1080p视频。该功能提升了视频生成的多样性和质量,同时保持了角色一致性和光影连贯。

111.jpg

【AiBase提要:】

🌟 新增“Ingredients to Video”模式,支持三张参考图生成视频。

🎨 视频内容自带SynthID隐形水印,提升版权保护。

🔊 同步输出原生环境音,增强视频沉浸感。

3、超级小爱AI大模型“随心修图”上线:一句话秒出大片

小米推出v7.8.50版本的超级小爱更新,新增‘随心修图’功能,用户可通过自然语言指令调用相册AI模型完成自动修图。该功能支持全局多模态交互,可识别屏幕与摄像头画面并执行复杂操作链。

image.png

【AiBase提要:】

📱 超级小爱新增‘随心修图’功能,用户通过自然语言指令即可实现自动修图。

📷 支持全局多模态交互,可识别屏幕与摄像头画面并执行复杂操作链。

🖼️ 功能基于7B多模态大模型,可在本地完成推理,默认输出带水印,并保留原图备份。

4、小米开源7B多模态模型MiMo-VL 推AI管家Miloco

小米在Hugging Face与GitHub同步发布了7B参数多模态大模型‘Xiaomi-MiMo-VL-Miloco-7B-GGUF’,并推出了基于该模型的智能管家‘Xiaomi Miloco’。Miloco能够通过米家摄像头识别用户活动和手势,并自动联动智能家居设备,同时兼容Home Assistant协议。该模型采用非商用开源许可,用户可在配备NVIDIA GPU与Docker环境的Windows或Linux主机一键部署。

【AiBase提要:】

🚀 小米发布7B参数多模态大模型‘Xiaomi-MiMo-VL-Miloco-7B-GGUF’。

💡 智能管家‘Xiaomi Miloco’可识别用户活动及手势,联动智能家居设备。

🔒 模型采用非商用开源许可,支持在NVIDIA GPU与Docker环境下部署。

5、Google Flow集成Nano Banana模型 一键抠图直出视频素材

谷歌为AI电影工具Flow新增图像编辑模块,深度集成Gemini2.5Flash图像模型(代号Nano Banana),支持自然语言一键去背景、主体分离与场景替换,并可直接拖入时间线生成8秒动态镜头。该功能面向Gemini免费版及以上用户开放,定价0.039美元/张,企业级Vertex AI同步上线。

【AiBase提要:】

🔥 集成Gemini2.5Flash图像模型,实现自然语言控制图像编辑。

💡 支持一键去背景、主体分离与场景替换,提升视频制作效率。

🌐 提供API批量接口,目标覆盖短视频、电商海报等高产出场景。

6、新一代多模态 AI DeepEyesV2:智能工具助力超越更大模型

DeepEyesV2是一款由研究人员推出的多模态AI模型,能够分析图像、执行代码并进行网络搜索。它通过智能利用外部工具,在多个任务中表现出色,甚至在某些情况下超越了更大的模型。

image.png

【AiBase提要:】

🌟 DeepEyesV2利用智能工具提升多模态任务的表现,超越大型模型。

🔧 采用两阶段训练流程,结合图像理解与工具使用。

📈 在多个基准测试中表现优秀,展现出较小模型的潜力。

详情链接:https://arxiv.org/abs/2511.05271

7、NotebookLM升级支持图像导入 板书秒变可检索知识库

谷歌推出NotebookLM新功能,支持用户上传黑板板书、教科书扫描页或街拍表格,并通过OCR与语义解析实现自然语言检索。该功能面向全平台免费,未来将增加本地处理选项以保护敏感数据。

image.png

【AiBase提要:】

📷 支持图像数据源,提升笔记管理效率

🧠 多模态模型识别手写与印刷内容,提取表格结构

🔍 实现图像内容的自然语言检索,增强信息获取能力

8、JetBrains 推出 AI 编码智能体基准测试平台 DPAI Arena

JetBrains 推出了 DPAI Arena,这是首个开放式、多语言、多框架和多工作流的 AI 编码智能体基准测试平台。该平台旨在评估 AI 工具在软件开发中的效率,并支持多种编程语言和工作流程,能够公平、可重复地比较 AI 工具的性能。

【AiBase提要:】

🌟 DPAI Arena 是业内首个开放式 AI 编码智能体基准测试平台,旨在评估 AI 工具在软件开发中的效率。

🛠️ 该平台支持多种编程语言和工作流程,能够公平、可重复地比较 AI 工具的性能。

🤝 JetBrains 计划将该项目交给 Linux Foundation,以促进更广泛的技术指导和未来发展。

详情链接:https://dpaia.dev/

举报

  • 相关推荐
  • 千问,阿里的未竟之梦

    在一个大阿里和一个吴妈的统一指挥下,千问诞生了。 11月17日,阿里正式宣布推出“千问”项目,面向公众上线其App公测版。该项目前身为智能信息事业群旗下的“通义App”,改名后的千问号称“阿里最强大模型官方助手”,定位为“会聊天、能办事”的个人AI助手。 官方称,千问后期计划与阿里生态内的各类生活场景深度结合。其目标是与ChatGPT展开全面竞争,标志着阿里

  • AI日报:可灵AI全量上线O1视频大模型;千问APP接入万相Wan2.5

    本文汇总了AI领域的最新动态:可灵AI发布O1视频大模型,支持多模态输入一键生成视频;千问APP接入万相Wan2.5,提升视频创作能力;PixVerse V5.5实现音画同步,简化视频制作;深度求索推出DeepSeek-V3.2,引入稀疏注意力机制降低成本;Runway发布Gen-4.5模型,增强视觉质量;谷歌优化AI搜索体验,Gemini 3 Pro扩展国际市场;Lovart推出Touch Edit功能,实现零门槛图像编辑;蚂蚁数科Agentar入选中国智能体开发赛道第一梯队,展现技术实力。

  • 千问爆火、Gemini 3翻身,阿里和谷歌的同题异解

    全球AI To C的市场局势,似乎悄然发生了转变。 以OpenAI、DeepSeek等为代表的AI创业公司,凭借着对大模型技术能力的突破,在AI To C的应用市场中占据着领导者地位。 与之相对的,是原本在移动互联网时代的大厂们,如谷歌、阿里巴巴等,似乎在过去这段时间中,C端的AI应用远未达到预期。 但最近,不管是谷歌,还是阿里,都凭借着AI打了一场漂亮的“翻身仗”。

  • 千问登场,阿里瞄准C端关键一战

    2023年9月,在正式接任CEO的第三天,吴泳铭发布的首份阿里全员信,宣布了阿里新的战略重点方向:用户为先、AI驱动。当时行业内更多把它视为一家企业在AI时代的惯性表述。 然而,就在过去一年中,围绕AI在C端用户场景的“可能性”,全球AI行业的叙事逻辑已经发生了明显转向。 OpenAI在完成大模型能力的“基座化”后,开始把更多资源押在C端生态。过去两年,随着GPT-5等产�

  • AI日报:Kling 2.6将发布;千问APP推学习大模型;Z-Image-Turbo-Fun-Controlnet-Union 开源

    本期AI日报聚焦多领域AI进展:Kling 2.6发布,支持音频同步生成,AI视频进入有声时代;千问APP推出学习大模型,提升拍照答疑与作业批改能力;阿里通义实验室开源图像生成模型,实现精准控制;豆包手机助手遭遇微信登录异常,凸显生态兼容挑战;米哈游推出带猫语特色的AI聊天模型AnuNeko;亚马逊云科技发布三款新型AI智能体,其中Kiro可自主编程数日;IDC报告预测具身智能�

  • 千问APP悄悄上线,阿里的AI超级入口也终于来了。

    阿里“千问”APP昨日在应用商店悄然上线,界面从通义APP的双色渐变变为简洁单色设计,功能大幅增强,支持Qwen全系列最新模型。此次品牌整合将阿里分散的AI触点统一为“千问”品牌,实现模型与产品名称对齐,让普通用户首次能在官方APP使用最强Qwen3-Max模型。APP默认开启联网搜索,集成图像编辑、视频通话等场景功能,通过智能意图识别实现一站式服务。这标志着阿里开�

  • 千问三连发背后的三条主线

    品牌焕新后,阿里AI助手“千问”,马不停蹄地进入到了产品升级周。 十二月一周三连发,千问分别在办公、学习和视频等方面迎来全新迭代。这让外界清晰感受到一种大厂中的“创业公司”节奏,敏捷、密集且全力以赴。 “千问开源大模型已经具备了一定领先优势,接下来的重点是如何将技术落地到工作、学习、生活中的具体应用,满足用户在各个场景的需求”,千问团�

  • 修图神器PS引入ChatGPT:用户一句话即可编辑

    Adobe正式宣布,在ChatGPT中推出Photoshop、Express和Acrobat的集成功能。 用户现可通过对话界面,直接在ChatGPT内调用这些工具进行创作、编辑与文档处理。 Adobe数字媒体总裁David Wadhwani表示,此次集成将Adobe的创意创新能力与ChatGPT的便捷交互相结合,助力更多人轻松实现创作。 这一发布基于Adobe在对话式人工智能和模型上下文协议(MCP)领域的持续创新。此前,Adobe已推出Acrobat Stud

  • 最晚出发的千问,为什么还有机会?

    阿里在打开新的AI叙事结构之后,也在寻找新的支点和沸点。 刚刚公布的截至2025年9月30日季度报告,增幅最大的是云智能集团,营收为398.24亿元,同比增长34%。这是阿里AI相关产品收入连续9个季度保持三位数同比增幅。 报告期的季度营收为2477.95亿元,同比增长5%,经营利润同比下降85%,归属母公司净利润209.9亿元,同比下降52%。 阿里解释,下降的主要原因是对即时零售、用

  • Qwen用开源逆袭GPT的故事,千问APP要再干一遍

    Qwen模型逆袭GPT的策略,阿里准备再用一次。 2018年,OpenAI发布了自己的第一个模型GPT1,占据了技术先机,随后变得越来越封闭。在大洋彼岸,阿里几乎同一时间着手大模型研究,到2023年推出“通义千问”时,则选择了一条完全不同的路径:直接开源模型,允许开发者免费使用、改进和集成。 这个策略让Qwen逐步积累起规模,做到了如今全球开发者基于它发布了17万个衍生模型�

今日大家都在搜的词: