首页 > AI头条  > 正文

谷歌Gemini 2.0版正式发布:2.0 Flash现已支持多模态输出

2024-12-12 08:19 · 来源: AIbase基地

谷歌公司及其母公司Alphabet的首席执行官桑达尔·皮查伊宣布,公司推出了最新人工智能模型——Gemini2.0,这标志着谷歌在构建通用AI助理领域迈出了重要一步。Gemini2.0在多模态输入处理和原生工具使用方面展现了显著进步,使得AI代理能够更深入地理解周围世界,并在用户监督下代表用户采取行动。

Gemini2.0基于其前身Gemini1.0和1.5开发,后者首次实现了原生多模态处理能力,能够理解包括文本、视频、图像、音频和代码在内的多种信息类型。目前,已有数百万开发者使用Gemini进行开发,推动谷歌重新构想其产品,包括服务20亿用户的7款产品,并创造新产品。NotebookLM便是多模态和长上下文能力的一个例证,受到了广泛喜爱。

微信截图_20241212080452.png

Gemini2.0的推出预示着谷歌进入了一个新的代理时代,该模型具备原生图像和音频输出能力,以及原生工具使用能力。谷歌已经开始将Gemini2.0提供给开发者和受信任的测试者,并计划快速将其整合到产品中,首先是Gemini和搜索。从即日起,Gemini2.0Flash实验模型将向所有Gemini用户开放。同时,谷歌还推出了名为Deep Research的新功能,它使用先进的推理和长上下文能力,充当研究助理,代表用户探索复杂主题并编制报告。该功能目前已在Gemini Advanced中提供。

搜索作为受AI影响最大的产品之一,谷歌的AI概览现已覆盖10亿人,使他们能够提出全新的问题,迅速成为谷歌最受欢迎的搜索功能之一。作为下一步,谷歌将把Gemini2.0的先进推理能力带入AI概览,以解决更复杂的主题和多步骤问题,包括高级数学方程、多模态查询和编码。本周已开始限量测试,并计划在明年初更广泛地推出。谷歌还将继续在未来一年将AI概览带到更多国家和语言。

谷歌还通过Gemini2.0的原生多模态能力展示了其代理研究的前沿成果。Gemini2.0Flash在1.5Flash的基础上进行了改进,1.5Flash是迄今为止最受开发者欢迎的模型,具有类似的快速响应时间。值得注意的是,2.0Flash甚至在关键基准测试中以两倍的速度超越了1.5Pro。2.0Flash还带来了新的能力。除了支持图像、视频和音频等多模态输入外,2.0Flash现在还支持多模态输出,如与文本混合的原生生成图像和可控制的多语言文本转语音(TTS)音频。它还可以原生调用工具,如谷歌搜索、代码执行以及第三方用户定义函数。

微信截图_20241212080808.png

Gemini2.0Flash现在作为实验模型向开发者提供,通过谷歌AI Studio和Vertex AI的Gemini API,所有开发者都可以使用多模态输入和文本输出,而文本转语音和原生图像生成则提供给早期访问合作伙伴。普通可用性将在1月份跟进,同时还会推出更多模型尺寸。

为了帮助开发者构建动态和交互式应用,谷歌还发布了一个新的多模态实时API,该API具有实时音频、视频流输入能力,并能够使用多个组合工具。

从今天开始,全球的Gemini用户可以通过在桌面和移动网页上的模型下拉菜单中选择它来访问2.0Flash实验的聊天优化版本,它将很快在Gemini移动应用中提供。明年初,谷歌将把Gemini2.0扩展到更多的谷歌产品。

  • 相关推荐
  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 被AI引用才是真的流量:写出让GPT、Gemini主动引用的AI搜索友好型内容(实操清单 + 工具推荐)

    本文系统介绍生成式引擎优化(GEO)的核心方法,帮助内容从“给人看”升级为“AI友好型”。关键策略包括:1.采用结构化写作框架,在开头设置可直接回答问题的“黄金段落”;2.运用分步清单、数据标注、FAQ等模块提升内容引用率;3.通过多平台同步分发增加曝光;4.使用AIBase等工具量化监测内容被AI引用的频率与场景,并给出5天落地执行表。

  • MiniMax M2:所有坑都踩过,才能做出所有人都能用上的Agent

    最近一个月,基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作,大体还是走出了两条路。 一种是在诸多难点里选择一个死磕,成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象,但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进,在一个最全面的基础模型蓝图里不停交出一个个关键拼图。 已经有了全

  • AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归

    本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。

  • REDMI电视X 2026今晚发布!REDMI首款高阶分区Mini LED电视

    小米10月23日宣布,Redmi电视X 2026系列新品今晚发布,这是Redmi首款高端分区Mini LED电视。相比传统液晶,Mini LED控光更精细,画面明暗对比度高,无烧屏风险,色彩还原更真实。85英寸版本官方定价4799元,补贴后3839.2元,配备640分区、1200nits峰值亮度,支持4K/144Hz及VRR可变刷新率。虽属入门级Mini LED,但相比普通液晶提升显著,适合普通消费者,将推动Mini LED普及。今晚还将发布全新投影仪产品。

  • AI日报:谷歌Gemini 3.0 Pro小范围推送;爱诗科技完成1亿元B+轮融资;百度发布文档解析模型 PaddleOCR-VL

    谷歌Gemini 3.0 Pro开始小范围推送,强化推理与多模态能力;百度发布全球领先文档解析模型PaddleOCR-VL,重塑OCR技术格局;爱诗科技完成亿元B+轮融资,ARR突破4000万美元;Anthropic推出Claude“skills”功能,提升AI工作效率;Pinterest推出AI内容限制工具,用户可自定义减少生成式图像;开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL;OpenAI视频生成模型Sora 2上线微软Azure平台,进入公共预览阶段;旅行搜索引擎Kayak推出“AI模式”,简化旅行规划与预订流程。

  • 苹果iPad mini将支持防水:看齐iPhone

    苹果正研发新一代防水iPad mini,采用无扬声器开孔设计降低进水风险,防水性能接近iPhone。与iPhone采用粘合剂密封不同,iPad mini通过全新扬声器系统实现防水。现售款无官方防水认证,而新款预计2026年上市,可能搭载OLED屏幕并涨价约100美元(现起售价499美元)。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • iPad mini 8外观巨变:去掉扬声器开孔

    iPad mini 8将采用全新设计,去掉扬声器开孔并提升防水性能,同时苹果也在为iPad mini 8研发一套新的扬声器系统。 据悉,iPad mini 8可能采用屏幕激励器方案,通过驱动屏幕振动来发出声音,其原理是将振动机械能直接传输到屏幕,然后让屏幕代替传统扬声器振膜发声。 具体来说,它是通过在机身内部的微驱动单元(激励器)来激励中框 ,从而带动屏幕振动发声。

今日大家都在搜的词: