首页 > 业界 > 关键词  > 谷歌开发者大会最新资讯  > 正文

谷歌 I/O开发者大会汇总:AI模型全面更新 几乎覆盖所有生成模型类型

2024-05-15 11:37 · 稿源:站长之家

站长之家(ChinaZ.com)5月15日 消息:在昨晚的Google I/O发布会上,Google宣布了一系列AI模型的更新,涵盖了从文本到视觉和音乐的多个领域:

Gemini1.5Pro:支持200万上下文,针对翻译、编码、推理等关键用例进行了质量改进,但未发布测试结果。

Gemini Flash:针对响应速度至关重要的窄或高频任务进行了优化,价格比GPT-3.5更便宜。

image.png

Gemini模型家族:

  • Ultra:最大的模型,仅在Gemini Advanced提供。

  • Pro:最佳总体性能模型,API预览版中提供。

  • Flash:轻量级速度/效率模型,API预览版中提供。

  • Nano:设备上模型,将内置于Chrome126中。

  • Gemini Gems:谷歌的GPTs,支持自定义与Gemini的互动方式。

  • Gemini Live:基于声音的深入双向对话能力,Project Astra实时视频理解个人助理聊天机器人即基于此。

  • Gemma2:6月发布,规模为27B,以更小的尺寸提供接近Llama-3-70B的性能。

  • PaliGemma:谷歌的第一个视觉语言开放模型,灵感来自PaLI-3。

  • Veo:DeepMind开发的模型,旨在对标Sora,但一些体验者认为效果不尽人意。

  • Imagen3:图像模型,能够理解自然书写的提示,生成高质量逼真图像,并在渲染文本方面表现优异。

  • Music AI Sandbox:旨在改变音乐创作方式的AI工具,用户可以全新创作乐器部分,轻松转换不同曲目风格。

  • Trillium:谷歌最新的TPUs,计算性能比上一代TPU v5e提升高达4.7倍。

这次发布会展示了Google在AI领域的全面布局和创新能力,从文本到视觉再到音乐,Google的AI模型正在不断进步,为用户带来更加丰富和高效的体验。

举报

  • 相关推荐
  • 苹果举行WWDC 25开发者大会 iOS 26更新汇总

    在今日举行的WWDC25全球开发者大会上,苹果公司正式推出iOS26操作系统,并宣布全平台版本号统一采用“26”命名规则,以简化用户对系统版本的识别。此次更新聚焦设计与功能两大维度,其中设计层面的变革尤为显著,被视为iOS7发布以来最大幅度的界面升级。 iOS26引入了全新的Liquid Glass(液态玻璃)技术,通过动态光影效果与用户操作实时交互。该技术使界面元素能够根据�

  • 音乐弹幕、AI美音、音色测试…..回森携音乐黑科技亮相华为开发者大会2025

    快手旗下Z时代音乐K歌社区APP回森受邀参加华为开发者大会2025,展示AI技术在音乐领域的创新应用。该平台通过多项首创技术降低音乐创作门槛,推出"音乐弹幕"等互动玩法,并与鸿蒙生态深度合作,实现音频自动对齐、AI美音等功能升级。其中,音乐弹幕功能让用户长按即可录制20秒合唱片段,结合多轨混音技术实现高质量"云合唱";AI美音功能则通过生成式技术

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • 全场景智能操作系统再进化,鸿蒙6点亮2025华为开发者大会

    华为鸿蒙系统迎来重大升级,HarmonyOS 6开发者Beta版正式启动报名。该系统在互联、智能、安全、流畅等核心体验全面优化,已覆盖超10亿设备,Top5000应用适配率达100%。鸿蒙生态建设取得突破性进展:开源代码超1.3亿行,800万开发者加入,30000+应用及元服务加速开发;创新推出"碰一碰"跨设备交互、AI主动防诈等特色功能。通过星盾安全架构保障用户隐私,累计拦截86亿次不合理权限请求。此次升级标志着国产操作系统在万物互联时代的技术突破,正推动全场景智能生态发展。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • @开发者们:百度文心大模型4.5系列模型开源,国内首发平台GitCode现已开放下载!

    6月30日,百度文心大模型4.5系列正式开源并在国内领先的开源平台GitCode首发上线。该系列包含10款模型,涵盖47B和3B参数的混合专家(MoE)模型及0.3B的稠密参数模型,采用创新的多模态异架构结构实现跨模态知识融合。模型基于飞桨框架开发,训练效率达47% MFU,在文本和多模态基准测试中达到SOTA水平。所有模型按Apache2.0协议开源,配套产业级开发套件支持多种芯片部署。GitCode平台已汇聚620万用户,为AI开发者提供代码托管、协同开发等全流程支持。此次开源将推动中国AI生态创新,加速大模型技术产业化应用。

  • 国内有哪些ai大模型?一文看懂中国核心AI大模型全景

    近两年中国AI大模型发展迅猛,已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出;深度求索DeepSeek以1/10参数实现GPT-4级推理能力;月之暗面Kimi以20万汉字上下文窗口领跑长文本处理;智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型,覆盖超1000家医院。开源生态加速国产芯片适配,15家厂商完成深度优化。行业应用方面,工程文档效率提升60%,24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向,中国AI正从实验室走向产业变革前沿。

  • 可灵AI全系模型上线“视频音效”功能 可同步生成高质量立体声音效

    可灵AI宣布全系列视频模型上线“视频音效”功能,用户在使用可灵AI进行视频创作时,不仅能获得高质量的视频画面,更能体验到与视频精准匹配、富有空间感的立体声音效……

  • 2025最新全球AI大模型排名,国内外模型动态洗牌(实时更新平台推荐)

    2025年全球AI大模型竞争进入白热化阶段,OpenAI、Google等国际巨头与中国企业激烈交锋。技术迭代远超预期,仅半年内排名就经历多次洗牌。当前全球AI大模型综合排名Top10显示:1)GPT-4.5综合80.4分领跑;2)Claude3.7编程领域领先;3)Gemini2.0多模态标杆;4)国产DeepSeek R1推理速度提升3倍;5)阿里Qwen2.5数学编程单项第一。中国模型通过开源策略、垂直优化和成本革命实现弯道超车,如DeepSeek R1仅耗资600万美元达到GPT-4水平,字节豆包采用稀疏MoE架构成本大幅降低。中文场景深度优化表现突出,如文心一言4.0方言交互准确率92%。开源生态爆发,通义千问全尺寸开源(7B~110B参数)在Hugging Face排名第一。权威评估需结合标准化测试、人类盲测和场景适配性。

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。