首页 > 业界 > 关键词  > 正文

Prismer: 一个专家集合的视觉语言模型 支持多节点训练

2023-07-25 10:32 · 稿源:站长之家

站长之家(ChinaZ.com)7月25日 消息:prismer 是一种视觉语言模型的实现,旨在提供一个具有专家集合的系统。该系统基于 PyTorch1.13开发,使用了 Huggingface 的加速工具包,支持多节点多 GPU 的训练。它可以进行图像描述和视觉问答等任务,并且在预训练和微调方面都取得了良好的性能。通过继承来自公开的、预先训练的领域专家的大部分网络权重并在训练期间冻结它们,Prismer 只需要训练几个组件。

image.png

项目地址:https://github.com/nvlabs/prismer

核心功能:

1. 提供了 Prismer 和 PrismerZ 两种模型的预训练和微调检查点,可以进行零 - shot 图像描述和视觉问答任务。

2. 支持使用多个专家模型进行集合,提高模型的表现。

3. 提供了用于生成专家标签的工具,以构建多标签数据集。

4. 支持使用自定义数据集进行训练和微调,并提供了训练和评估脚本。

5. 提供了一个简洁的示例,可在单个 GPU 上进行图像描述任务。

优点:

Prismer 模型有几个优点,但最值得注意的优点之一是它在训练时非常有效地使用数据。Prismer 构建在预训练的纯视觉和纯语言骨干模型之上,以实现这一目标,并大幅减少获得与其他最先进的视觉语言模型同等性能所需的 GPU 时间。人们可以使用这些预先训练的参数来使用大量可用的网络规模知识。

研究人员还为视觉编码器开发了多模态信号输入。创建的多模态辅助知识可以更好地捕获有关输入图像的语义和信息。Prismer 的架构经过优化,可以最大限度地利用经过培训的专家,并且可训练的参数很少。

研究人员在 Prismer 中纳入了两种经过预培训的专家:

  • 主干网专家负责将文本和图片翻译成有意义的标记序列的预训练模型分别称为“仅视觉”和“仅语言”模型。

  • 根据训练中使用的数据,话语模型的主持人可能会以各种方式标记任务。

特性

  • 知识渊博的人越多,结果就越好。随着 Prismer 模态专家数量的增加,其性能也随之提高。

  • 专业技能越强,结果越高 研究人员用均匀分布中的随机噪声替换部分预测深度标签,以创建损坏的深度专家,并评估专家质量对 Prismer 性能的影响。

  • 抵制无益的意见 研究结果进一步表明,当噪声预测专家加入时,Prismer 的性能是稳定的。

举报

  • 相关推荐
  • MiroMind 破局:在大语言模型的夹缝中,陈天桥在造什么?

    本文阐述了陈天桥创立的MiroMind在AI领域的独特路径。文章将当前主流AI分为“文科模型”(如OpenAI,侧重语言生成与模拟)和“理科模型”(MiroMind追求的方向,强调因果推理与可验证性)。MiroMind反对单纯追求“行为主义”(图灵测试)或“功能主义”(替代工作),提出构建“通用推理引擎”的新定位。其核心是放弃“全知全能”幻想,承认模型会出错,通过引入“自我纠错”机制和外部反馈闭环来生存。目标不是聊天机器人,而是“可审计、可验证的通用问题求解器”,瞄准科研、工业等高容错门槛的B端“深水区”。文章以BrowseComp案例说明,小参数模型通过Agent交互可战胜更大模型,证明了推理能力可通过架构创新实现。最终,作者将理想的AGI比作一把精准剔除谬误的“手术刀”,而非无所不知的“神”。

  • 小米手表5新版本内测:健身房训练支持重量自动回填、优化功耗提升续航

    小米手环5新版内测启动,优化健身训练自动回填重量等功能,修复手势失灵、闹钟不响等问题。内测名额300个,报名截至2月9日20:00,预计2月10日15点前推送新版本。具体更新包括优化手势体验、支持重量自动回填、提升续航、修复闹钟和日历异常等已知问题,提升用户使用稳定性。

  • 不要对AI说谢谢上热搜 专家:背后或藏资源消耗争议

    近日,关于是否应对人工智能(AI)使用礼貌性用语,特别是“谢谢”一词,引发了社会各界的广泛讨论。随着AI技术的不断进步,一个看似微小却引人深思的问题浮出水面:对AI说“谢谢”,是否会造成不必要的资源浪费? 一段时间以来,网络上流传着一种观点,认为对AI表达感谢会触发其计算模块的额外运算,从而浪费算力与电力。这一说法虽未经严格证实,却引起了公众的�

  • 只花0.99元3分钟就能诊断抑郁症 专家:切勿轻信

    在互联网公司工作的李先生花了0.99元购买了一套测试题,3分钟答完100道题后确认”自己得了轻度抑郁症。 在电商平台上,搜索抑郁症测试题”就能看到多家店铺在销售类似的题目,电子版价格通常不到1块钱,店家声称该测试题能自测焦虑、抑郁症等等。 对此,专家提醒,区分情绪问题是否正常,仅靠

  • 国家超算互联网核心节点上线试运行,托举中国AI算力应用关键一跃!

    2月5日,国家超算互联网核心节点在郑州上线试运行,由曙光ScaleX万卡超集群提供超3万卡国产AI算力,是全国最大单体国产AI算力资源池。该节点旨在破解算力供需脱节、资源闲置等痛点,支持万亿参数模型训练、AI for Science等大规模AI计算场景。依托国家超算互联网平台,节点已适配优化400多个主流大模型,可接入上千款应用,为全球用户提供高效普惠的中国AI算力服务,推动�

  • 魅族Flyme AIOS新春版来了:一大波新功能 六款机型可升

    2月6日,魅族Flyme AIOS系统推送新春版OTA更新,覆盖魅族22、21系列等六款机型。更新涵盖视觉设计、影像体验、智能交互及实用工具,新增多项贴合春节场景的功能。视觉层面新增“缤纷乐园”壁纸样式,融入童趣、萌宠等元素;桌面文件夹支持自由调节大小,新增解散功能。影像方面上线春节、元宵限时水印,优化全屏AOD显示效果。智能交互升级Aicy建议,支持美团外卖实时通知;PC互联Windows、Mac版同步上线,日历、时钟等工具功能优化,魅族22还新增旁路供电功能。

  • 低代码+MES实战:如何将机加工车间从“黑盒”变“白盒”?

    本文介绍了爱合发工业传动科技公司为解决传统人工记录导致生产信息不透明、效率低下的痛点,采用“低代码+传统开发”混合模式,在三个月内成功交付定制化MES系统的案例。该系统覆盖基础数据管理、生产计划排产、设备管理、生产执行、看板可视化等环节,打通了从计划到执行的全流程数据链路,实现了生产过程的可视化与透明化管理,有效提升了车间生产效率与决策效能。

  • “醒酒饮料”一瓶快速解酒?专家回应:无法加速分解酒精

    近期,社交平台上涌现出多款号称能“快速解酒”的饮料产品,引发广泛关注。部分商家宣称,只需饮用一瓶此类饮料,便能在十分钟内迅速解酒,甚至现场使用酒精检测仪进行演示,展示饮用前后酒精含量的显著差异,以此吸引消费者购买。 然而,专家指出,酒精在人体内的代谢速度相对固定,分解纯酒精的过程无法通过饮用任何饮料或服用药物来加速。目前市场上销售的

  • 京东AI付正式上线!支持语音快捷安全支付

    京东今日正式宣布入局AI支付领域,推出京东AI付”,用户凭借语音即可便捷、安全支付。 据悉,该功能搭载京东JoyAI大模型能力,适用于AI助手、智能终端等多种软硬件载体。 用户通过简单的语音指令即可完成支付全流程,例如在支付过程中直接语音切换绑定的银行卡。

  • 法国一男子将未爆炮弹塞入直肠 医院急召拆弹专家处理

    法国图卢兹一名24岁男子因剧痛前往朗格伊医院急诊,自述直肠塞入异物,医护手术时才发现这个所谓的异物竟然是一枚未爆炮弹! 现场立即启动最高安全预案,医院紧急疏散急诊区医护与病患,设置安全警戒线,同步呼叫警方、消防与专业拆弹小组赶赴现场。 经排爆人员检测,确认该炮弹无即时爆炸风险,完成安全处置后手术才顺利收尾。

今日大家都在搜的词: