首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

谷歌“狙击”OpenAI,发布新一代大模型,主打Agent+多模态

2024-12-12 08:45 · 稿源: 量子位公众号

继量子芯片之后,谷歌又来抢“OpenAI双12直播”的流量了!就在刚刚,谷歌新一代大模型Gemini2.0突然登场,再次由谷歌CEO皮猜亲自官宣。新一代模型专为AI Agent而打造,谷歌表示目前已经将2.0版本提供给了一些开发者内测,正在迅速将其集成在Gemini和搜索等产品线中。好消息是,Gemi

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 多模态交互+健康新突破,歌尔发布新一代智能指环参考设计

    传感器技术、大数据、云计算、物联网以及人工智能技术的蓬勃发展,为智能穿戴设备集成更多健康监测功能提供技术支持。智能指环作为新型可穿戴终端,可将最新技术与生活方式结合,凭借其便携和实时性在健康监测、交互领域展现出独特优势。歌尔自2013年进入智能穿戴领域,可根据客户需求提供不同产品形态的智能穿戴整体技术制造方案,未来,歌尔将继续推动技术革新,不断探索智能穿戴设备的新可能,助力用户实现便捷、智能、健康的生活方式。

  • 刚刚,OpenAI发布AI Agent—Operator,全民智能体时代来了!

    今天凌晨2点,OpenAI终于发布了传闻已久的AIAgent——Operator。Operator是一个面向浏览器的智能体,能够模拟人类操作计算机的能力,完成在线订餐、预订酒店、购买机票等日常繁琐、重复任务。Operator处于预览版状态,仅提供给美国Pro用户使用,很快会扩大应用范围。

  • 智象多模态生成大模型3.0发布 离幻觉更远与离落地更近

    12月28日,智象未来科技有限公司在安徽人工智能产业先导区启动仪式中,正式发布智象多模态生成大模型3.0版。启动仪式上,智象未来创始人兼首席执行官梅涛总结了2024年人工领域技术发展的五个标志性事件,分别是以Sora为代表的视觉生成物理世界模拟器、以ChatGPT4o为代表的多模态模型、以GPT-o1为代表的从预训练到后训练推理优化、多模态大模型赋能具身智能实现软硬件结合,以及人工智能学者荣获诺贝尔化学奖表明AI赋能科研范式变革。本次活动现场,智象未来与人民网、上海电影集团、彩讯科技、捷成华视网聚、安徽联通、中国移动咪咕音乐等12家生态伙伴企业代表签约,共同打造集技术研发、产业化应用、市场推广于一体的生态体系。

  • AI日报:阿里通义开源多模态推理模型QVQ-72B;OpenAI考虑自研人形机器人;QQ音乐上线首个AI大模型音效

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里发布多模态推理模型QVQ-72B!视觉、语言能力双提升阿里巴巴最近推出的QVQ-72B多模态推理模型在语言和视觉能力上实现了显著提升,能够处理复杂的推理和分析任务,尤其在多步推理和数学推理方面表现突出。尽管o1-preview在某些方面表现优秀,但在实际应用中仍面临高成本和不切实际的测试建议等问题。

  • OpenAI源代码分享!实时AI Agent,20分钟开发语音智能体

    让你开发一个语音智能体应用原型大概需要多久?3天?5天?,OpenAI刚分享了一个基于RealtimeAPI开发的多层级高级AIAgent,只用了20分钟!OpenAI已经在github公开了源代码,虽然只是一个演示demo但很快就突破了1200颗星,尤其是超高的开发效率让很多老手都感到惊讶。代码地址:https://github.com/openai/openai-realtime-agents?tab=readme-ov-file实时Agent技术特点实时Agent能提供高效的数据交互能力,在用户说话的同时就能立刻响应,极大减少了等待时间,同时优化了数据传输和处理流程,确保了高效率和低延迟,这对于开发语音类智能体非常重要。在不到20分钟,使用多Agent流程构建一个语音应用原型……惊掉下巴。

  • •中国大模型公司提出新架构,解决Context无限长问题,开启Agent时代

    日月开新元,万象启新篇。1月15日,MiniMax发布并开源新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。受益于LinearAttention层面的架构创新、算力层面的优化,以及集群上的训推一体的设计,MiniMax以业内极具性价比的价格提供文本模型和多模态理解模型的API服务,标准定价是输入token1元/百万token,输出token8元/百万token。

  • AI日报:Kimi发布多模态图片理解模型API;周鸿祎参演AI短剧开拍;MiniMax-01系列模型开源;星火同传语音大模型发布

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、月之暗面Kimi多模态图片理解模型API发布2025年1月15日,北京月之暗面科技有限公司正式发布了全新多模态图片理解模型moonshot-v1-vision-preview,该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力,旨在帮助Kimi更好地理解世界。通过模块化设计,MiniCPM-o2.6集成了多种强大组件,支持实时处理和多语言功能。

  • OpenAI科学家盛赞中国大模型:算法非常强,算力用到极致!

    OpenAI创始团队成员、高级研究科学家AndrejKarpathy很罕见地,分享了一个来自中国的开源大模型——DeepSeek-v3。Karpathy表示,DeepSeek仅用了280万小时的GPU算力,就训练出了比Llama-3405B更强的前沿模型,整体成本节省了11倍左右,将算力发挥到了极致。值得一提的是可以使用像o1模型那样的深度思考模式,并且会把整个推理过程全部写出来。

  • 谷歌发力世界模型:从OpenAI挖来Sora核心负责人!

    谷歌正在组建一个新的团队,专注于开发可以模拟物理世界的人工智能模型。该团队的负责人是蒂姆布鲁克斯,他此前是OpenAI视频生成器Sora的联合负责人之一,后于2024年10月离开OpenAI,跳槽至谷歌的人工智能研究实验室谷歌DeepMind。Gemini是谷歌的旗舰AI模型系列,用于图像分析和文本生成等任务;Veo是谷歌的视频生成模型;Genie则是谷歌的基础世界模型,它支持用户通过文本、合成图像、照片甚至草图等方式,创造出具有高度可玩性的交互式环境和可控的虚拟世界。

  • 惊喜!Sam Altman确定OpenAI新产品,AGI、Agents、成人模式

    今天凌晨3点30,SamAltman公布了2025年OpenAI即将发布的技术产品。分别是:AGI、Agents、更好的GPT-4o升级版、更好的记忆存储、更好的上下文窗口、成人模式、深度研究特色功能、更好的Sora、更好的个性化定制。多数有理智、道德的成年人,会把控好对ChatGPT在生成“成年人”内容的分寸,知道什么是危险内容,什么是可生成的。