首页 > 业界 > 关键词  > 正文

Prismer: 一个专家集合的视觉语言模型 支持多节点训练

2023-07-25 10:32 · 稿源:站长之家

站长之家(ChinaZ.com)7月25日 消息:prismer 是一种视觉语言模型的实现,旨在提供一个具有专家集合的系统。该系统基于 PyTorch1.13开发,使用了 Huggingface 的加速工具包,支持多节点多 GPU 的训练。它可以进行图像描述和视觉问答等任务,并且在预训练和微调方面都取得了良好的性能。通过继承来自公开的、预先训练的领域专家的大部分网络权重并在训练期间冻结它们,Prismer 只需要训练几个组件。

image.png

项目地址:https://github.com/nvlabs/prismer

核心功能:

1. 提供了 Prismer 和 PrismerZ 两种模型的预训练和微调检查点,可以进行零 - shot 图像描述和视觉问答任务。

2. 支持使用多个专家模型进行集合,提高模型的表现。

3. 提供了用于生成专家标签的工具,以构建多标签数据集。

4. 支持使用自定义数据集进行训练和微调,并提供了训练和评估脚本。

5. 提供了一个简洁的示例,可在单个 GPU 上进行图像描述任务。

优点:

Prismer 模型有几个优点,但最值得注意的优点之一是它在训练时非常有效地使用数据。Prismer 构建在预训练的纯视觉和纯语言骨干模型之上,以实现这一目标,并大幅减少获得与其他最先进的视觉语言模型同等性能所需的 GPU 时间。人们可以使用这些预先训练的参数来使用大量可用的网络规模知识。

研究人员还为视觉编码器开发了多模态信号输入。创建的多模态辅助知识可以更好地捕获有关输入图像的语义和信息。Prismer 的架构经过优化,可以最大限度地利用经过培训的专家,并且可训练的参数很少。

研究人员在 Prismer 中纳入了两种经过预培训的专家:

  • 主干网专家负责将文本和图片翻译成有意义的标记序列的预训练模型分别称为“仅视觉”和“仅语言”模型。

  • 根据训练中使用的数据,话语模型的主持人可能会以各种方式标记任务。

特性

  • 知识渊博的人越多,结果就越好。随着 Prismer 模态专家数量的增加,其性能也随之提高。

  • 专业技能越强,结果越高 研究人员用均匀分布中的随机噪声替换部分预测深度标签,以创建损坏的深度专家,并评估专家质量对 Prismer 性能的影响。

  • 抵制无益的意见 研究结果进一步表明,当噪声预测专家加入时,Prismer 的性能是稳定的。

举报

  • 相关推荐
  • 苹果自研AI模型难产:改用第三方大语言模型

    苹果可能会跟OpenAI或Anthropic合作,双方正在谈判讨论一项潜在交易,苹果希望调用OpenAI或Anthropic的第三方大语言模型来为Siri提供技术支持。 据悉,OpenAI或Anthropic正在训练适配苹果私有云计算服务器的模型,苹果也在进行测试,目前苹果发现Anthropic的AI模型最适合Siri,且与Anthropic初步讨论了一些财务条款,消息称Anthropic要求苹果每年支付数十亿美元的费用,且该费用会随时间�

  • 华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

    6月20日,华为发布盘古大模型5.5,五大基础模型全面升级。该模型采用业界首创的Triplet+Transformer统一预训练架构,能跨行业处理表格数据、时间序列数据和图片数据,显著提升预测精度和泛化能力。已在水泥、钢铁、电解铝、供热等多个工业场景落地应用:海螺水泥实现熟料强度预测,宝武钢铁高炉出铁温度合格率超90%,云南铝业年省电2600万度,天津供热能耗降低10%。模型聚焦工业领域,通过工艺优化和系统寻优,助力企业降本增效,推动行业智能化转型。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 从游泳训练到水陆影音,鲸语训练耳机2代首创三模合一

    专业运动音频品牌鲸语推出第二代骨传导训练耳机,创新实现"三模一体"功能:训练模式支持16频分组教学;蓝牙模式可秒连手机播放流媒体;MP3模式内置32GB存储。产品通过IP69防水认证,续航提升50%,水下训练达9小时。新增晴海蓝、竞速黄、珊瑚橙三色,采用液态硅胶材质提升佩戴舒适度。与洲克联名款同步上市,延续专业游泳装备基因。6月18日起全渠道发售,限时尝鲜价469元。

  • 国内MCP服务平台推荐!aibase.cn上线MCP服务器集合平台

    在当今数字化时代,人工智能技术正以前所未有的速度发展,深刻地改变着我们的生活和工作方式。而要充分发挥AI的强大能力,离不开高效的工具和服务支持。今天,就让我们来了解一下一个专注于MCP(Model Context Protocol)服务的优质平台 —— AIbase。 AIbase(<https://mcp.aibase.cn/>)是一个精选全球优质MCP服务器的集合平台。它就像一个精心打造的资源宝库,一站式整合了海�

  • 猛玛携全新极影生态,支持FIRST训练营青年电影创作

    2025年6月17日,猛玛发布新一代无线图传监视器极影5,标志着"极影图传生态"进入2.0阶段。该产品配备1500nit超高亮屏、160°超广视角、双频协同+自动跳频等七大功能,专为中小型影视团队设计。极影5与极影全系图传设备和"立声PRO"通话系统共同构建无线音视频支持体系,服务青年电影人创作实践。同时,猛玛宣布成为第十九届FIRST青年电影展官方指定无线音视频技术品牌,将为42位入选青年电影人提供技术支持。猛玛自2017年推出首款专业无线图传以来,已服务《流浪地球》《长安十二时辰》等头部剧组,逐步确立"国产专业图传首选品牌"的行业地位。

  • 磁力金牛助3C消电好物大促快速打爆,收获节点增长

    文章探讨了消费升级趋势下3C家电行业的营销新策略。快手平台通过"短视频引流+直播间高效投放"模式,助力荣事达、添可等品牌实现销量突破。其中,荣事达以食材净化机为核心单品,通过专业直播讲解和优惠机制实现冷启动,单月销量环比增长257%;添可借助优质内容和多重补贴,在大促期间实现GMV和消费双增长;创维则结合节日送礼需求,通过全站直播推广剃须刀产品,带动全店GMV增速达523%。快手磁力金牛将持续升级技术生态,帮助商家挖掘全域流量价值,构建"好商品+好内容"的正向经营循环。

  • 自研大模型遥遥无期!苹果Siri考虑用外援:转向OpenAI合作

    据媒体报道,知名爆料人马克古尔曼透露,苹果正重新评估其人工智能发展策略,考虑放弃自研大语言模型(LLM)计划,转而与OpenAI展开合作谈判。 若合作达成,苹果原定于2026年推出的基于自研Apple Foundation Models”的Siri升级计划可能被搁置,这一变动或引发行业广泛关注。 目前,由苹果AI负责人约翰詹南德雷亚(John Giannandrea)主导的LLM Siri”项目仍在进行中,但进展不及预�

  • Meta V-JEPA 2模型来袭,OpenAI/微美全息AI创新跃升赋能千行百业变革

    Meta推出开源模型V-JEPA2,帮助AI理解3D环境和物理规律;OpenAI发布最强推理模型o3-pro,在数学测试中超越Google Gemini2.5Pro;苹果宣布将推出全新智能模型,扩展语言支持并开放开发者访问;微美全息凭借技术积累在大模型、多模态智能等领域取得突破。全球科技巨头加速布局AI前沿领域,推动AI与教育、金融等重点行业深度融合,赋能产业升级。

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。