首页 > 业界 > 关键词  > PaLI-3最新资讯  > 正文

谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强

2023-10-17 18:00 · 稿源: 机器之心公众号

在多模态(视觉语言)大模型领域,拼参数赢性能的同时,追求参数更小、速度更快、性能更强是另一条研究路径。在大模型时代,视觉语言模型(VLM)的参数已经扩展到了数百甚至数千亿,使得性能持续增加。与此同时,更小规模的模型仍然很重要,它们更易于训练和服务,更加环境友好,并

......

本文由站长之家合作伙伴自媒体作者“机器之心公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 苹果自研AI模型难产:改用第三方大语言模型

    苹果可能会跟OpenAI或Anthropic合作,双方正在谈判讨论一项潜在交易,苹果希望调用OpenAI或Anthropic的第三方大语言模型来为Siri提供技术支持。 据悉,OpenAI或Anthropic正在训练适配苹果私有云计算服务器的模型,苹果也在进行测试,目前苹果发现Anthropic的AI模型最适合Siri,且与Anthropic初步讨论了一些财务条款,消息称Anthropic要求苹果每年支付数十亿美元的费用,且该费用会随时间�

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • Neuralink实现渐冻患者语言功能重建,微美全息(WIMI.US)完善AI+脑机接口生态圈

    埃隆·马斯克旗下Neuralink公司利用脑机接口技术,帮助一名渐冻症患者通过植入设备重新"说话"。该技术结合xAI的人工智能,将患者脑信号转化为语音。目前全球已有3位患者接受植入,其中两位恢复部分生活能力。脑机接口技术分为侵入式、非侵入式和半侵入式三种,在医疗、教育、游戏等领域应用前景广阔。我国"十四五"规划已将其列为重点科技项目。微美全息等企业正推动"脑机接口+"生态建设,整合AI、量子计算等技术拓展应用场景。该技术虽处临床试验阶段,但已展现帮助失语、瘫痪患者康复的潜力。未来随着AI与神经科学结合,人机协同将带来更多可能性。

  • A柱、B柱更强了!雷军:小米YU7通过热气胀工艺嵌入6根2200MPa小米超强钢

    今天上午,雷军发微博又透露了小米YU7在车身被动安全上的一个卖点。他表示,小米YU7借鉴防滚架的设计灵感,在A、B柱内部嵌入6 根2200MPa小米超强钢热气胀管,与车身结构紧密配合,构建起独特的 内嵌式防滚架”。 他介绍,这个设计大幅提升了A柱、B 柱的承载能力,使得车辆在应对翻滚、小偏置正碰以及追尾卡车等极端碰撞场景时,为乘员舱提供更可靠的支撑与保护。

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • 京东物流物流保障再升级!“可以吸”的水蜜桃出山更快了

    6月6日,京东物流与无锡阳山村共建的"乡村振兴服务基地"正式揭牌,并发布阳山水蜜桃物流保障方案。京东物流通过冷链运输和航空专线,实现水蜜桃最快当日达。在产地端投入近千名快递员,设立果园揽收点,提供5层加厚包装保障运输安全。同时,该基地整合物流资源与桃文化,通过直播营销等活动拓宽销售渠道,助力农民增收。未来将持续深化产地合作,推动更多特色农产品上行,为乡村振兴贡献力量。

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • 2025年高考数学新一卷上热搜:6个AI大模型宣布挑战 谁更强?

    近日,随着高考的落幕,一场别样的“高考”也在各大AI大模型之间展开。此次测试邀请了多家知名科技公司的大模型,参与2025年数学新课标Ⅰ卷中的14道客观题测试,以此检验它们在逻辑推理和数学能力上的表现。测试题目包括8道单选题、3道多选题和3道填空题,满分73分,测试过程严格遵循高考判分原则。 测试结果显示,字节跳动的豆包和腾讯的元宝(T1)以68分的总成绩�

  • 华为自研仓颉编程语言宣布7月30日开源

    从具体特性来看,在原生智能化方面,仓颉编程语言内嵌AgentDSL的编程框架,实现了自然语言编程语言的有机融合。多Agent协同功能简化了符号表达,模式可自由组合,支持各类智能应用开发。在天生全场景特性上,其轻量化可缩放运行时和模块化分层设计,使得即便内存较小也能顺利运行。同时,全场景领域扩展结合元编程和eDSL技术,支持面向领域声明式开发。 高性能方面�