首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

1/10体量达到SOTA!谷歌发布5B参数视觉语言模型PaLI-3,更小更快却更强

2023-10-28 10:01 · 稿源: 新智元公众号

谷歌研究院和DeepMind研究人员推出最新PaLI-3视觉语言模型(VLM),模型以更小、更快、更强的特点获得大部分研究人员青睐,在诸多任务中达到SOTA。最近,堪称改变游戏规则的视觉语言模型(VLM)PaLI-3问世,引得大量科研人员关注。PaLI-3是谷歌最新推出的视觉语言模型,以更小的体

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 50块1斤的网红菜竟是云南人的绿化带:分为观赏型和食用型

    ​近日,一种在超市售价高达 50 元每斤、名为“皱叶菜”的蔬菜引发了广泛关注,经了解,这种蔬菜实则为羽衣甘蓝。羽衣甘蓝与常见的包菜、紫甘蓝以及西兰花同属甘蓝家族,因其富含维生素、膳食纤维以及多种矿物质,被冠以“超级食物”的美誉。此前,羽衣甘蓝在欧美地区广受欢迎,近两年,随着奶茶、沙拉等健康饮食概念在国内的兴起,它也逐渐走红。 然而,在羽�

  • 沃旭VSL-340叉车数字化终端:让每台叉车都拥有“视觉大脑”

    沃旭通讯推出VSL-340叉车数字化终端,通过AI视觉、激光雷达与UWB多源融合技术,解决工厂物流找货难、调度乱、安全隐患多三大痛点。该终端实现厘米级定位、智能调度与主动安全防护,支持多车协同作业,提升效率30%以上,降低碰撞风险。无需大规模改造,即可让传统叉车升级为智能移动节点,助力工厂迈入可视化、可调度、可追踪的智慧物流新阶段。

  • 谷歌发布Gemini 3 数学能力堪称全球最强

    谷歌正式推出新一代推理模型Gemini 3.0 Pro,在各大评测榜单表现优异:LMArena竞技场以1501分登顶,数学基准测试达23.4%远超同行,编程能力稳居第一梯队,视觉理解准确率高达72.7%达现有水平两倍。该模型基于自研TPU训练,配套发布Agentic编程平台Antigravity,支持多步骤复杂流程自主执行(如智能整理收件箱)。目前通过Gemini应用、AI Studio及API向各类用户开放。

  • 2025视觉中国&500px视觉盛典青岛站开启招募!

    本文介绍了多个科技品牌在展会现场推出的互动体验和福利活动:至誉科技提供免费笔记本屏幕校色服务,关注小红书可领取贴纸等礼品;东芝通过问卷赠送手机挂绳;索尼展出新品相机镜头;适马打卡送周边;永诺展示神秘新品镜头;雷克沙关注社媒可领专属礼物;富图宝有识脚架互动游戏;神牛到场即送周边;艺卓体验专业显示器;唯卓仕可参与新品抽奖;斯丹德提供免费抽奖与补光灯体验;明基首次展出未发售的校色显示器。各品牌均通过现场互动吸引用户参与。

  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • AI日报:阿里千问APP公测;Veo 3.1上线多图参考;超级小爱AI大模型“随心修图”上线

    本期AI日报聚焦多项技术突破:阿里千问APP公测,基于Qwen3模型对标ChatGPT;谷歌Veo 3.1支持三图融合生成8秒视频;小米推出"随心修图"功能与7B多模态模型Miloco;谷歌Flow集成Nano Banana模型实现智能抠图;多模态AI工具DeepEyesV2可执行代码与网络搜索;NotebookLM升级支持图像导入检索;JetBrains推出DPAI Arena测试编码AI性能。全球AI竞争持续升温,产品迭代加速。

  • 从巴别鱼到技术突围:W4Pro以体验领先定义跨语言沟通新标杆

    时空壶W4Pro开放式AI同传耳机通过技术创新,将科幻构想变为现实产品。在跨语言沟通核心指标上实现双重突破:响应延迟仅0.2秒,较行业平均提速75%;翻译延迟控制在3秒内,实测平均2.8秒,较竞品提速38%-53%。搭载骨声纹识别+矢量降噪双技术方案,在85分贝嘈杂环境中语音识别准确率仍保持98%以上。支持43种语言及96种口音实时互译,覆盖全球98%主流区域,新增孟加拉语等小语种适配。单设备即可实现双向跨语言交流,打破多数竞品需配对使用的局限。单次充电支持6小时翻译使用,综合续航达18小时,开放式挂耳设计仅重12克。该产品精准解决了跨语言沟通中的延迟、降噪、场景适配等核心痛点,推动行业向"无感沟通"迈进。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • AI视觉重塑质检“智慧之眼”,聚焦四大核心应用场景

    AI视觉质检技术正以精准化、场景化、智能化为核心驱动力,推动测试测量领域从传统人工/2D检测向“3D全维度+AI深度赋能”跨越升级。2026年慕尼黑上海电子生产设备展将汇聚超千家电子制造企业,集中展示焊接工艺缺陷检测、元件贴装质量排查等核心应用场景的解决方案。头部企业将通过3D成像+AI识别、X射线智能检测等技术,实现微米级缺陷精准捕捉与全流程数据闭环管理,

  • 余承东官宣华为MatePad Edge:鸿蒙二合一平板电脑

    今日,华为常务董事、产品投资委员会主任、终端BG董事长余承东发布视频,正式揭开华为MatePad Edge的神秘面纱。这款超旗舰新品定位为鸿蒙二合一平板电脑,既是巨幕平板,又具备性能电脑的强大实力。 据数码博主“数码闲聊站”爆料,华为MatePad Edge亮点颇多。在屏幕方面,它采用14.2英寸OLED屏幕,并且提供柔光屏版本,能够为用户带来更为出色的视觉体验。性能上,该机�

今日大家都在搜的词: