谷歌发布Gemini 1.5技术报告详细介绍Gemini 1.5 Pro模型架构改进情况

2024-05-20 09:32 · 稿源：站长之家

站长之家(ChinaZ.com) 5月20日消息:Google DeepMind 发布了一份长达150页的技术报告，详细介绍了 Gemini1.5Pro 和 Gemini1.5Flash 两个模型的性能特点和架构以及这个多模态大型模型的最新进展。

Gemini1.5于今年2月上线，通过工程优化、MoE架构等策略显著提升了性能和速度。该模型具有更长的上下文理解能力、更强的推理能力，能够处理跨模态内容。

报告中提到了两个新型号:

Gemini1.5Pro:在多个功能和基准测试中超越了2月份的版本。
Gemini1.5Flash:轻量级变体，旨在提高效率，性能损失极小。

Gemini1.5Flash是一个Transformer解码器模型，拥有超过2M的上下文和多模态功能，优化了张量处理单元（TPU）的使用，并减少了模型服务延迟。它能够并行计算注意力和前馈分量，使用高阶预处理方法提高训练质量。

报告还评估了Gemini1.5在处理英语、中文、日语和法语查询时，每个输出字符的平均时间。结果显示，Gemini1.5Flash在所有测试语言中实现了最快的生成速度。

此外，Gemini1.5在跨模态长上下文检索任务上实现了近乎完美的召回，提高了长文档问答、长视频问答和长上下文自动语音识别的最佳水平，并在一系列广泛的基准测试中匹配或超越了Gemini1.0Ultra的性能。

Gemini1.5Pro在5月份的版本在多个推理、编码、视觉和视频基准测试中进行了改进，而音频和翻译性能保持不变。

报告还介绍了Gemini1.5Pro数学增强版本的性能，它在Hendryck的MATH基准测试中取得了91.1%的突破性性能，解决了此前模型无法解决的亚太数学奥林匹克题目。

最后，报告强调了Gemini1.5在现实世界的应用潜力，展示了它与专业人士合作完成任务的能力，在10个不同的工作类别中可节省26-75%的时间。此外，该模型还能学会将英语翻译成Kalamang，一种只有不到200人使用的语言，与人类学习者的水平相当。

Gemini1.5的技术报告展示了谷歌在大型多模态模型领域的最新进展，其性能的提升和应用潜力为未来的AI技术发展提供了新的方向。

详细报告:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

（举报）

相关推荐

关键词：

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

本文系统介绍生成式引擎优化(GEO)的核心方法，帮助内容从“给人看”升级为“AI友好型”。关键策略包括：1.采用结构化写作框架，在开头设置可直接回答问题的“黄金段落”；2.运用分步清单、数据标注、FAQ等模块提升内容引用率；3.通过多平台同步分发增加曝光；4.使用AIBase等工具量化监测内容被AI引用的频率与场景，并给出5天落地执行表。

AI搜索友好型内容创作 GEO Generative
荐AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球首发；Gemini代码惊现Veo3.1

阿里巴巴发布紧凑型Qwen3-VL多模态模型，推动边缘设备AI应用；科大讯飞推出全球首款AI翻译耳机，支持60种语言实时翻译；谷歌NotebookLM集成图像生成功能，可将笔记转为动态视频；ChatGPT将于12月向成人开放限制内容并推出自定义交互功能；谷歌Gemini代码泄露Veo3.1视频模型升级迹象；马斯克宣布X平台将全面转向AI推荐系统；巨人网络与清华联合开源多方言语音合成框架DiaMoE-TTS；vivo公布X200系列影像升级计划；字节跳动开源文本驱动高保真人脸生成模型FaceCLIP。

AI技术多模态模型边缘计算
荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

视觉中国与多家AI公司合作开发可商用视觉大模型，已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频，引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人，仅保留Meta AI。宇树科技推出仿人机器人Unitree H2，具备拟人化设计。谷歌为Gemini集成地图数据工具，可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器，但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能，可分析手机未分享照片。

AI 视觉大模型版权合规
荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

谷歌Gemini 3.0 Pro开始小范围推送，强化推理与多模态能力；百度发布全球领先文档解析模型PaddleOCR-VL，重塑OCR技术格局；爱诗科技完成亿元B+轮融资，ARR突破4000万美元；Anthropic推出Claude“skills”功能，提升AI工作效率；Pinterest推出AI内容限制工具，用户可自定义减少生成式图像；开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL；OpenAI视频生成模型Sora 2上线微软Azure平台，进入公共预览阶段；旅行搜索引擎Kayak推出“AI模式”，简化旅行规划与预订流程。

谷歌Gemini AI日报 DeepMind
REDMI电视X 2026今晚发布！REDMI首款高阶分区Mini LED电视

小米10月23日宣布，Redmi电视X 2026系列新品今晚发布，这是Redmi首款高端分区Mini LED电视。相比传统液晶，Mini LED控光更精细，画面明暗对比度高，无烧屏风险，色彩还原更真实。85英寸版本官方定价4799元，补贴后3839.2元，配备640分区、1200nits峰值亮度，支持4K/144Hz及VRR可变刷新率。虽属入门级Mini LED，但相比普通液晶提升显著，适合普通消费者，将推动Mini LED普及。今晚还将发布全新投影仪产品。

小米 REDMI电视X 2026
REDMI Mini LED电视来了：85英寸到手价不足4000元

小米10月23日发布Redmi X 2026系列Mini LED电视，这是Redmi首款Mini LED产品。85英寸版本售价4799元，补贴后3839.2元，配备640分区背光、1200nits峰值亮度，支持4K/144Hz显示及288Hz超高频模式。搭载四核A73处理器、4+64GB存储，预装澎湃OS系统，视频启动速度提升42%。对比同尺寸小米电视S Mini LED（7399元），性价比突出。另有65/75英寸版本同步亮相。

小米电视 REDMI发布会 Mini
告别伪升级 TCL携SQD-Mini LED亮相，「真极致」稳坐画质王座

过去十年电视画质难以同时实现高对比度和真实色彩。TCL通过SQD-Mini LED技术突破行业十年色域僵局：采用纯蓝光激发量子点，结合光学提纯器实现100% BT.2020全局高色域，解决传统RGB-Mini LED串色问题；配合20000+万象分区精准控光，控光效率远超普通分区。该技术从底层革新显示标准，终结“挤牙膏式”升级，成为高端电视画质新标杆。

电视画质对比度高色彩真实丰富
华为MatePad Mini典藏版今日开售：售价5999元起

10月27日，华为MatePad Mini典藏版正式开售，起售价5999元。作为华为首款8.8英寸小尺寸平板，该机在性能与功能上实现全面突破，堪称史上最强小平板。配备8.8英寸柔性OLED云晰柔光屏，支持P3广色域、1800nits峰值亮度及120Hz高刷，显示效果出色。通讯方面支持插卡通话、Wi-Fi7及北斗卫星消息，确保户外畅联。搭配M-Pencil Pro手写笔与智能皮套，支持专业绘画及会议语音实时转写功能，办公创作体验全面升级。

华为MatePad Mini 典藏版首销
TCL以SQD-Mini LED打破十年色域僵局，开启「地表最强」画质体验

电视行业十年发展遇瓶颈，TCL以SQD-Mini LED技术突破困局。该技术通过超强控光实现超高对比度，结合100% BT.2020全域高色域，解决传统电视串色、偏色问题。新品X11L拥有20736个万象分区，峰值亮度达10000nits，机身厚度仅2cm，树立行业高端电视新标杆，为消费者带来沉浸式观影体验。

电视行业画质对比度

今日大家都在搜的词：

热文

3 天
7天

谷歌发布Gemini 1.5技术报告详细介绍Gemini 1.5 Pro模型架构改进情况

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

荐AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球首发；Gemini代码惊现Veo3.1

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

REDMI电视X 2026今晚发布！REDMI首款高阶分区Mini LED电视

REDMI Mini LED电视来了：85英寸到手价不足4000元

告别伪升级 TCL携SQD-Mini LED亮相，「真极致」稳坐画质王座

华为MatePad Mini典藏版今日开售：售价5999元起

TCL以SQD-Mini LED打破十年色域僵局，开启「地表最强」画质体验

今日大家都在搜的词：

热文

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

华为MatePad Pro流金典藏版开卖：售价7799元

华为MatePad Mini典藏版今日开售：售价5999元起

华为nova Flip S小折叠开售：首发3388元起

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

REDMI K90标准版12+512GB降价300元小米回应：可退差价

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

一加15今晚发布定位全能水桶机

小米汽车发布跨年购置税补贴方案至高不超15000元

卢伟冰：REDMI K90标准版12+512首销月直降300 售价2899元

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

站长商机

谷歌发布Gemini 1.5技术报告 详细介绍Gemini 1.5 Pro模型架构改进情况

今日大家都在搜的词：

热文

站长商机

谷歌发布Gemini 1.5技术报告详细介绍Gemini 1.5 Pro模型架构改进情况