谷歌Gemini 2.0版正式发布：2.0 Flash现已支持多模态输出

2024-12-12 08:19 · 来源： AIbase基地

谷歌公司及其母公司Alphabet的首席执行官桑达尔·皮查伊宣布，公司推出了最新人工智能模型——Gemini2.0，这标志着谷歌在构建通用AI助理领域迈出了重要一步。Gemini2.0在多模态输入处理和原生工具使用方面展现了显著进步，使得AI代理能够更深入地理解周围世界，并在用户监督下代表用户采取行动。

Gemini2.0基于其前身Gemini1.0和1.5开发，后者首次实现了原生多模态处理能力，能够理解包括文本、视频、图像、音频和代码在内的多种信息类型。目前，已有数百万开发者使用Gemini进行开发，推动谷歌重新构想其产品，包括服务20亿用户的7款产品，并创造新产品。NotebookLM便是多模态和长上下文能力的一个例证，受到了广泛喜爱。

微信截图_20241212080452.png

Gemini2.0的推出预示着谷歌进入了一个新的代理时代，该模型具备原生图像和音频输出能力，以及原生工具使用能力。谷歌已经开始将Gemini2.0提供给开发者和受信任的测试者，并计划快速将其整合到产品中，首先是Gemini和搜索。从即日起，Gemini2.0Flash实验模型将向所有Gemini用户开放。同时，谷歌还推出了名为Deep Research的新功能，它使用先进的推理和长上下文能力，充当研究助理，代表用户探索复杂主题并编制报告。该功能目前已在Gemini Advanced中提供。

搜索作为受AI影响最大的产品之一，谷歌的AI概览现已覆盖10亿人，使他们能够提出全新的问题，迅速成为谷歌最受欢迎的搜索功能之一。作为下一步，谷歌将把Gemini2.0的先进推理能力带入AI概览，以解决更复杂的主题和多步骤问题，包括高级数学方程、多模态查询和编码。本周已开始限量测试，并计划在明年初更广泛地推出。谷歌还将继续在未来一年将AI概览带到更多国家和语言。

谷歌还通过Gemini2.0的原生多模态能力展示了其代理研究的前沿成果。Gemini2.0Flash在1.5Flash的基础上进行了改进，1.5Flash是迄今为止最受开发者欢迎的模型，具有类似的快速响应时间。值得注意的是，2.0Flash甚至在关键基准测试中以两倍的速度超越了1.5Pro。2.0Flash还带来了新的能力。除了支持图像、视频和音频等多模态输入外，2.0Flash现在还支持多模态输出，如与文本混合的原生生成图像和可控制的多语言文本转语音（TTS）音频。它还可以原生调用工具，如谷歌搜索、代码执行以及第三方用户定义函数。

微信截图_20241212080808.png

Gemini2.0Flash现在作为实验模型向开发者提供，通过谷歌AI Studio和Vertex AI的Gemini API，所有开发者都可以使用多模态输入和文本输出，而文本转语音和原生图像生成则提供给早期访问合作伙伴。普通可用性将在1月份跟进，同时还会推出更多模型尺寸。

为了帮助开发者构建动态和交互式应用，谷歌还发布了一个新的多模态实时API，该API具有实时音频、视频流输入能力，并能够使用多个组合工具。

从今天开始，全球的Gemini用户可以通过在桌面和移动网页上的模型下拉菜单中选择它来访问2.0Flash实验的聊天优化版本，它将很快在Gemini移动应用中提供。明年初，谷歌将把Gemini2.0扩展到更多的谷歌产品。

相关推荐

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

本文系统介绍生成式引擎优化(GEO)的核心方法，帮助内容从“给人看”升级为“AI友好型”。关键策略包括：1.采用结构化写作框架，在开头设置可直接回答问题的“黄金段落”；2.运用分步清单、数据标注、FAQ等模块提升内容引用率；3.通过多平台同步分发增加曝光；4.使用AIBase等工具量化监测内容被AI引用的频率与场景，并给出5天落地执行表。

AI搜索友好型内容创作 GEO Generative
荐MiniMax M2：所有坑都踩过，才能做出所有人都能用上的Agent

最近一个月，基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作，大体还是走出了两条路。一种是在诸多难点里选择一个死磕，成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象，但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进，在一个最全面的基础模型蓝图里不停交出一个个关键拼图。已经有了全

基础模型 MiniMax M2
荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

本期AI日报聚焦多领域技术突破：美团发布全模态交互模型LongCat-Flash-Omni；阿里通义千问Qwen3-Max上线深度思考功能；百度文心5.0升级多模态生成能力；谷歌确认Gemini3年内发布并整合至苹果Siri；OpenAI向多国开放Sora2视频工具；云存储与AI开发工具持续优化，展现行业加速迭代态势。

AI 多模态实时交互
REDMI电视X 2026今晚发布！REDMI首款高阶分区Mini LED电视

小米10月23日宣布，Redmi电视X 2026系列新品今晚发布，这是Redmi首款高端分区Mini LED电视。相比传统液晶，Mini LED控光更精细，画面明暗对比度高，无烧屏风险，色彩还原更真实。85英寸版本官方定价4799元，补贴后3839.2元，配备640分区、1200nits峰值亮度，支持4K/144Hz及VRR可变刷新率。虽属入门级Mini LED，但相比普通液晶提升显著，适合普通消费者，将推动Mini LED普及。今晚还将发布全新投影仪产品。

小米 REDMI电视X 2026
荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

谷歌Gemini 3.0 Pro开始小范围推送，强化推理与多模态能力；百度发布全球领先文档解析模型PaddleOCR-VL，重塑OCR技术格局；爱诗科技完成亿元B+轮融资，ARR突破4000万美元；Anthropic推出Claude“skills”功能，提升AI工作效率；Pinterest推出AI内容限制工具，用户可自定义减少生成式图像；开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL；OpenAI视频生成模型Sora 2上线微软Azure平台，进入公共预览阶段；旅行搜索引擎Kayak推出“AI模式”，简化旅行规划与预订流程。

谷歌Gemini AI日报 DeepMind
苹果iPad mini将支持防水：看齐iPhone

苹果正研发新一代防水iPad mini，采用无扬声器开孔设计降低进水风险，防水性能接近iPhone。与iPhone采用粘合剂密封不同，iPad mini通过全新扬声器系统实现防水。现售款无官方防水认证，而新款预计2026年上市，可能搭载OLED屏幕并涨价约100美元（现起售价499美元）。

iPad mini 防水性能
荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
iPad mini 8外观巨变：去掉扬声器开孔

iPad mini 8将采用全新设计，去掉扬声器开孔并提升防水性能，同时苹果也在为iPad mini 8研发一套新的扬声器系统。据悉，iPad mini 8可能采用屏幕激励器方案，通过驱动屏幕振动来发出声音，其原理是将振动机械能直接传输到屏幕，然后让屏幕代替传统扬声器振膜发声。具体来说，它是通过在机身内部的微驱动单元（激励器）来激励中框，从而带动屏幕振动发声。

iPad mini 8

今日大家都在搜的词：

热文

3 天
7天

谷歌Gemini 2.0版正式发布：2.0 Flash现已支持多模态输出

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

荐MiniMax M2：所有坑都踩过，才能做出所有人都能用上的Agent

荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

REDMI电视X 2026今晚发布！REDMI首款高阶分区Mini LED电视

荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

苹果iPad mini将支持防水：看齐iPhone

荐MiniMax让AI语音有了新基建

iPad mini 8外观巨变：去掉扬声器开孔

今日大家都在搜的词：

热文

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

真我GT8 Pro阿斯顿马丁F1限量版将于11月10日正式开售

何小鹏：小鹏X9超级增程是全球续航最长的大七座车

真我GT8 Pro阿斯顿马丁F1限量版外观公布

卢伟冰评Air手机：大胆创新但极致薄牺牲用户体验

OPPO ColorOS 16正式版推送：首批适配11款机型

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

苹果客服回应iPhone或自动拨号：设置或其他问题

vivo OriginOS 6启动公测招募：支持10款机型

魅族22月白天青配色发布：2999元起

小米随身蓝牙音箱曜石黑配色版本开售：售价299元

iQOO Neo11开售2小时销量超前代全天

REDMI官方：REDMI K90超级像素新国屏比2K屏更强

站长商机