首页 > 业界 > 关键词  > Gemini最新资讯  > 正文

不只能画图!谷歌推出Gemini Omni:只需动动嘴 AI自动帮你改大片

2026-05-20 17:20 · 稿源: 快科技

2026Google I/O大会上,谷歌正式揭晓了Gemini Omni模型。该模型能够同时处理文本、图像、音频与视频等多种输入形式,并实现跨模态的内容生成与编辑。

在音频功能方面,该模型初期仅支持语音输入,但谷歌透露,未来将逐步扩展更多类型的音频输入能力。

首款产品Gemini Omni Flash已在Gemini应用中上线,后续将向企业客户开放API接口。

该模型的核心亮点在于其深度视频编辑功能。用户只需通过自然语言指令,便可对生成内容进行持续优化,包括添加或移除物体、调整摄像机角度、改变环境与风格。

凭借对物理规律的掌握,以及对历史、科学和文化知识的整合,Gemini Omni生成的视频在角色、场景及视觉逻辑上表现出高度的一致性,甚至能够推测后续情节。用户还可以创建个人数字分身,并将其嵌入视频中。

在安全方面,谷歌也进行了相应布局。所有通过Omni生成的视频都将自动嵌入SynthID数字水印,用户可通过Google搜索及Chrome浏览器进行验证。

Gemini Omni Flash现已面向订阅Google AI Plus、Pro或Ultra服务的用户,在Gemini应用和Google Flow中推出。此外,该模型还免费提供给希望混剪YouTube Shorts的用户,以及YouTube Create应用的用户。

Google DeepMind负责人哈萨比斯表示,该模型正推动人工智能从单纯的任务执行向通用人工智能(AGI)迈进。

举报

  • 相关推荐
  • 谷歌推出Gemini Go:2GB内存手机也能跑大模型

    谷歌为Android Go系统推出全新Gemini Go AI助手,专为内存超2GB的低配设备设计。该精简版大模型取代Google Assistant Go,用户无需下载独立应用,长按Home键或电源键即可唤醒。它支持拨打电话、发短信、查询地图、搜索餐厅、设置闹钟等日常功能,还能上传文档和照片以提供更自然的对话体验。目前,Gemini Go已开始分阶段向符合条件的设备推送。

  • 告别免费午餐!Google Gemini引入配额限制:用完只能等刷新

    谷歌近日对其Gemini产品实施了严格的使用限额。用户不再享受无限制访问权限,官方针对不同模型及功能强制执行用量封顶机制。 此次调整引入双重计数器系统。第一项限制为当前用量,该配额每5小时刷新一次。第二项限制为每周用量,一旦触发该上限,即使用户的5小时配额重置,账号仍将被锁定,直至每周周期结束。 谷歌并未公布具体的请求对话发送次数,表示限制触�

  • 谷歌正式发布Gemini 3.5:Flash版率先发布 速度快4倍

    谷歌在I/O 2026开发者大会上发布全新Gemini 3.5 Flash模型,宣布对全球用户免费开放。该模型被定义为迄今最强智能体与编程模型,在多项基准测试中超越前代旗舰Gemini 3.1 Pro,输出速度超每秒280 token,是GPT-5.5和Claude Opus 4.7的4倍。其使用成本不到其他前沿模型的一半,大幅缩短开发与审计耗时,兼具高性能与极致速度,对AI应用市场形成冲击。

  • AI日报:谷歌发布最強模型Gemini 3.5 Flash;阿里云“千问云”上线;苹果AI辅助功能升级

    本期AI日报聚焦六大热点:谷歌发布性能与效率显著提升的Gemini 3.5 Flash模型并免费开放;阿里云推出面向Agent时代的“千问云”平台,重构大模型服务链路;谷歌与三星联合推出两款集成Gemini的智能眼镜;苹果推出Apple Intelligence驱动的AI辅助功能及Vision Pro眼控轮椅;谷歌发布多模态交互模型Gemini Omni;通义实验室发布Qwen3.7-Max模型,采用正交解耦技术,多项评测国内第一。

  • Google I/O 2026:XREAL Project Aura 首次公开体验

    在Google I/O 2026上,XREAL与Google联合发布了Project Aura,这是全球首款搭载Android XR系统的XR眼镜。它整合了XREAL的轻量化硬件、Android XR平台和Gemini多模态AI,实现了从概念到可体验、可开发、可落地的跨越。产品采用分体式算力架构,配备X1S空间计算芯片和70°视场角,支持沉浸式地图、动态视频、3D绘画等场景,计划于2026年全球上市,并启动开发者支持计划。

  • AI日报:字节开源统一多模态大模型Lance 3B;智谱发布GLM-5.1高速版;CapCut与Gemini合作推出深度集成

    本期AI日报聚焦8大热点:字节跳动开源3B参数多模态大模型Lance,实现图像视频理解与生成统一;智谱发布GLM-5.1高速版API,以400 tokens/s刷新全球纪录;CapCut与Gemini合作实现AI创作智能互联;OpenAI推出ChatGPT for PowerPoint插件,一句话生成PPT;WordPress 7.0原生集成AI,开启智能建站新时代;Spotify联手环球音乐推出正版AI翻唱与混音功能;美团开源LongCat-Video-Avatar1.5数字人视频生成模型,�

  • 全球AI大模型周调用量五连涨 DeepSeek-V4-Flash登顶

    根据OpenRouter最新数据测算,上周(5月18日至5月24日),全球AI大模型总调用量达28.9万亿Token,较此前一周增长7.4%,连续五周上涨,大模型调用需求仍在持续释放。 在主要上榜模型中,中国AI大模型周调用量达9.223万亿Token,环比增长19.89%;同期美国AI大模型周调用量为4.93万亿Token,环比增长16.27%。中国大模型周调用量已连续四周超过美国,稳居全球首位,表明中国模型正更深入

  • Google搜索迎25年来最大改版!搜索框彻底变了

    Google于北京时间今日凌晨1点召开I/O 2026开发者大会,作为以搜索引擎起家的公司,Google将最重要的更新交给了搜索业务。 Google宣布,全新的AI搜索体验正式上线,官方称这是搜索框自25多年前诞生以来最大的一次升级。 变化首先体现在搜索框本身,过去用户输入关键词、获取网页链接的传统模式正在被重构,新版搜索框已转变为一个支持理解、推理、追问和执行任务的AI交互�

  • AI日报:Claude Opus 4.8上线;小红书PC端上线AI搜索助手点点;阶跃星辰开源Step 3.7 Flash 大模型

    今日AI领域亮点:Anthropic发布Claude Opus 4.8,性能提升且价格大降;小红书PC端上线AI搜索助手“点点”,基于真实笔记提供对话式交互;阶跃星辰开源Step 3.7 Flash模型,专注智能体生产化;拼多多加强AI治理,打击涉考作弊工具;Grok Build 0.2.7更新,新增多代理共享终端;小米宣布MiMo旧版模型2026年6月下线;阿里云百炼全面CLI化并开源;腾讯混元推出Hy-Memory智能记忆插件,提升记忆密度与效率。

  • 谷歌展示新一代智能眼镜:Gemini加持 实时识别世界

    在今年的I/O大会上,谷歌首次展示了新一代智能眼镜,意图在可穿戴设备市场抢占一席之地。 谷歌宣布,将与三星以及眼镜品牌Gentle Monster、Warby Parker合作推出新款智能眼镜。该产品内置Gemini AI助手,支持与安卓及iOS手机配对使用。 谷歌XR业务总经理兼副总裁Shahram Izadi在主题演讲中表示,这款眼镜预计于今年秋季晚些时候推出,目标是将信息私密地通过语音传入耳中,而非�

今日大家都在搜的词: