谷歌“狙击”OpenAI，发布新一代大模型，主打Agent+多模态

2024-12-12 08:45 · 稿源：量子位公众号

继量子芯片之后，谷歌又来抢“OpenAI双12直播”的流量了!就在刚刚，谷歌新一代大模型Gemini2.0突然登场，再次由谷歌CEO皮猜亲自官宣。新一代模型专为AI Agent而打造，谷歌表示目前已经将2.0版本提供给了一些开发者内测，正在迅速将其集成在Gemini和搜索等产品线中。好消息是，Gemi

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

荐多模态和Agent成为大厂AI的新赛点

这是《窄播Weekly》的第52期，本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景，多模态能力和代理执行成为两个焦点。大模型落地C端场景的核心，就是让大模型的能力越来越接近人。沿着这个主旋律，可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现，需要给到大模型多

AI竞争策略多模态能力大模型应用
荐多模态和Agent成为大厂AI的新赛点

本期《窄播Weekly》聚焦AI大厂竞争策略向应用场景倾斜的趋势，重点分析了多模态能力和代理执行两大发展方向。文章指出，大模型落地的核心在于让人机交互更自然，具体表现为：1）通过多模态技术降低用户使用门槛，如阿里夸克新推出的"拍照问夸克"功能；2）通过代理执行提升复杂任务处理能力，如字节、百度等推出的通用Agent产品。国内外厂商路径差异明显：国�

AI应用场景多模态能力代理执行
荐刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

现在的国产AI应用，一口气看好几分钟的视频，都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段，AI就摇身一变成“名侦探”做剖析:它会对整个视频的内容先做一个总结，再按照秒级，对视频片段做内容上的推演。商汤科技联合创始人杨帆认为:银河通用合伙人、大模型负责人张直政表示:除此之外，上海交通大学副教授闫维新对这个问题的看法是:总言之，商汤作为国�

国产AI 视频解析智能剪辑
荐对标OpenAI，谷歌开源Agent SDK，支持MCP、A2A、5000星

谷歌在GoogleCloudNext25大会上，开源了首个Agent开发套件—ADK。这也是OpenAI之后第二家大厂发布的标准化智能体SDK。谷歌刚开源ADK几天在Github已经超过5000颗星，非常受开发者的欢迎。

Google Cloud Next
谷歌A2A协议是什么？ MCP 和 Agent2Agent 有什么区别？

4月10日，在GoogleCloudNext大会上，谷歌宣布开源Agent2Agent协议，这一协议被业界视为智能体交互领域的“通用语言”，旨在突破跨平台、多模态协作及安全保障等核心技术瓶颈，并联合全球50余家科技企业共同构建新一代智能生态。本文从技术实现与行业变革两个维度，深度解析A2A协议的核心价值。这一协议的推出，标志着智能体协作模式从封闭系统向开放生态的范式转变，为产业数字化转型注入新动能。

Agent2Agent协议智能体交互跨平台协作
荐1000万上下文！新开源多模态大模型，单个GPU就能运行

今年2月初，谷歌发布的Gemini2.0Pro支持200万上下文，震惊了整个大模型领域。仅过了2个月，Meta最新开源的Llama4Scout就将上下文扩展至1000万，整整提升了5倍开启千万级时代。根据实验数据显示，Llama4Behemoth在MMLUPro、GPQA、MATH-500等测试的数据比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

Gemini2.0Pro Llama4Scout 上下文扩展
刚刚，OpenAI开源BrowseComp，重塑Agent浏览器评测

今天凌晨2点，OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度，连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0，即便使用带浏览器功能的GPT-4o也只有1.9%。通过使用更多的计算资源，模型可以尝试更多的搜索路径，从提高找到正确答案的概率。

OpenAI 智能体测试基准
谷歌开源发布A2A协议 Agent2Agent智能体交互协议详细介绍

在GoogleCloudNext25大会上，谷歌宣布开源了首个标准智能体交互协议——Agent2AgentProtocol，这一举措有望彻底改变智能体之间的交互方式，打破系统孤岛，对智能体的能力、跨平台协作以及执行效率产生质的飞跃。A2A协议是一种开放标准，旨在为智能体提供一种通用的交互方式，使它们能够在不同的底层框架和供应商之间无缝协作。每个部分都有指定的内容类型，这使得客户端和远程智能体能够协商所需的正确格式，并且明确包括用户界面能力的协商，比如iframe、视频、网络表单等，从根据用户的需求和设备的能力，提供最佳的用户体验。

Agent2Agent Protocol 智能体交互
可灵AI发布全新2.0模型：上线多模态视频编辑功能

快科技4月16日消息，据报道，可灵AI在北京举行灵感成真”2.0模型发布会，正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍，可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先；可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日，全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单，快手可灵1.6pro（高品质模

可灵AI 视频生成模型图像生成模型
荐刚刚，OpenAI发布GPT-image-1模型，更强吉卜力版本来啦

OpenAI发布全新图像生成模型GPT-image-1，通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数，并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能，图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著，开发者可通过API实现更多创意场景。新模型在�

OpenAI GPT-image-1 图像生成

热文

3 天
7天

谷歌“狙击”OpenAI，发布新一代大模型，主打Agent+多模态

热文

站长商机