首页 > 业界 > 关键词  > PaLI-3最新资讯  > 正文

谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强

2023-10-17 18:00 · 稿源: 机器之心公众号

在多模态(视觉语言)大模型领域,拼参数赢性能的同时,追求参数更小、速度更快、性能更强是另一条研究路径。在大模型时代,视觉语言模型(VLM)的参数已经扩展到了数百甚至数千亿,使得性能持续增加。与此同时,更小规模的模型仍然很重要,它们更易于训练和服务,更加环境友好,并

......

本文由站长之家合作伙伴自媒体作者“机器之心公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • 从巴别鱼到技术突围:W4Pro以体验领先定义跨语言沟通新标杆

    时空壶W4Pro开放式AI同传耳机通过技术创新,将科幻构想变为现实产品。在跨语言沟通核心指标上实现双重突破:响应延迟仅0.2秒,较行业平均提速75%;翻译延迟控制在3秒内,实测平均2.8秒,较竞品提速38%-53%。搭载骨声纹识别+矢量降噪双技术方案,在85分贝嘈杂环境中语音识别准确率仍保持98%以上。支持43种语言及96种口音实时互译,覆盖全球98%主流区域,新增孟加拉语等小语种适配。单设备即可实现双向跨语言交流,打破多数竞品需配对使用的局限。单次充电支持6小时翻译使用,综合续航达18小时,开放式挂耳设计仅重12克。该产品精准解决了跨语言沟通中的延迟、降噪、场景适配等核心痛点,推动行业向"无感沟通"迈进。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 未来iPad mini/iPad Air/MacBook都将升级OLED屏:LCD退场

    苹果正在研发搭载OLED显示屏的iPad mini、iPad Air、MacBook Pro和MacBook Air机型,苹果已在iPad Pro中采用OLED屏,并计划在未来数月及数年内将OLED推广到更多设备上,从而淘汰LCD屏幕。 具体来看,iPad mini最快会在2026年配备OLED屏,同时会提升防水性能,新款iPad mini也因此涨价100美元。 至于iPad Air,其商用OLED的时间要晚于iPad mini,爆料称2026年春季亮相的iPad Air将继续使用LCD屏幕,但后续

  • iPad mini 8外观巨变:去掉扬声器开孔

    iPad mini 8将采用全新设计,去掉扬声器开孔并提升防水性能,同时苹果也在为iPad mini 8研发一套新的扬声器系统。 据悉,iPad mini 8可能采用屏幕激励器方案,通过驱动屏幕振动来发出声音,其原理是将振动机械能直接传输到屏幕,然后让屏幕代替传统扬声器振膜发声。 具体来说,它是通过在机身内部的微驱动单元(激励器)来激励中框 ,从而带动屏幕振动发声。

  • AI日报:广电整治AI动画乱象;360发布大模型安全白皮书;百度推出小度AI眼镜Pro

    国家广电总局宣布自2026年3月起全面整治AI生成内容,要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》,提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro,集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX,实现文本化语音编辑。Grok新增纯文本生成视频功能,17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠,并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型,优化开发者体验。

  • 苹果iPad mini将支持防水:看齐iPhone

    苹果正研发新一代防水iPad mini,采用无扬声器开孔设计降低进水风险,防水性能接近iPhone。与iPhone采用粘合剂密封不同,iPad mini通过全新扬声器系统实现防水。现售款无官方防水认证,而新款预计2026年上市,可能搭载OLED屏幕并涨价约100美元(现起售价499美元)。

  • 只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

    ​这几天,OCR这个词,绝对是整个AI圈最火的词。因为DeepSeek-OCR,甚至让OCR这个赛道文艺复兴,又给直接带火了。 整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。 然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL

  • 苹果新版iOS 26/iPadOS 26上线一天就被紧急撤回:设备更新后出错

    苹果在推送iOS 26.2和iPadOS 26.2首个开发者测试版一天后,便停止了对iPhone Air、iPhone 16e以及新款M5 iPad Pro蜂窝网络版的签名验证,这些设备暂时无法安装iOS 26.2/iPadOS 26.2 Beta版更新。 据悉,已经安装了该更新的用户反馈,他的M5 iPad Pro更新后出现问题,被迫进入恢复模式,最终他将设备恢复至iPadOS 26.1版本。 值得一提的是,上述受影响的

今日大家都在搜的词: