在2026年Google I/O大会上,谷歌正式揭晓了Gemini Omni模型。该模型能够同时处理文本、图像、音频与视频等多种输入形式,并实现跨模态的内容生成与编辑。
在音频功能方面,该模型初期仅支持语音输入,但谷歌透露,未来将逐步扩展更多类型的音频输入能力。
首款产品Gemini Omni Flash已在Gemini应用中上线,后续将向企业客户开放API接口。
该模型的核心亮点在于其深度视频编辑功能。用户只需通过自然语言指令,便可对生成内容进行持续优化,包括添加或移除物体、调整摄像机角度、改变环境与风格。
凭借对物理规律的掌握,以及对历史、科学和文化知识的整合,Gemini Omni生成的视频在角色、场景及视觉逻辑上表现出高度的一致性,甚至能够推测后续情节。用户还可以创建个人数字分身,并将其嵌入视频中。
在安全方面,谷歌也进行了相应布局。所有通过Omni生成的视频都将自动嵌入SynthID数字水印,用户可通过Google搜索及Chrome浏览器进行验证。
Gemini Omni Flash现已面向订阅Google AI Plus、Pro或Ultra服务的用户,在Gemini应用和Google Flow中推出。此外,该模型还免费提供给希望混剪YouTube Shorts的用户,以及YouTube Create应用的用户。
Google DeepMind负责人哈萨比斯表示,该模型正推动人工智能从单纯的任务执行向通用人工智能(AGI)迈进。
(举报)
