首页 > 业界 > 关键词  > 正文

新加坡国立大学开源多模态语言模型 NExT-GPT,助力多媒体 AI 应用发展

2023-11-29 14:20 · 稿源:站长之家

**划重点:**

1. 🌐 **多模态能力:** NExT-GPT 可处理文本、图像、视频和音频,为开发者提供强大的多模态语言模型。

2. 🧠 **架构与训练:** 采用三层架构,包括线性投影、Vicuna LLM 核心和模态特定的转换层。通过 MosIT 技术进行中间层的训练。

3. 🌟 **开源贡献:** NExT-GPT 的开源使得研究者和开发者能够创建能够无缝集成文本、图像、视频和音频的应用,潜在应用领域广泛。

站长之家(ChinaZ.com) 11月29日 消息:新加坡国立大学(NUS)NExT 研究中心发布了开源多模态大语言模型 NExT-GPT,为处理文本、图像、视频和音频等多样化输入提供了强大支持,推动了多媒体人工智能应用的进一步发展。

NExT-GPT 提供了一个基于聊天的界面,允许用户输入文本、图像、视频或音频文件。该模型能够理解并针对这些输入做出回应,回答问题或生成相应内容。这一多模态人工智能系统融合了预训练的编码器和解码器,包括 Vicuna 和 Stable Diffusion,并通过 NExT 团队研发的 Modality-switching Instruction Tuning(MosIT)技术进行中间层的训练。

AI机器人上班

图源备注:图片由AI生成,图片授权服务商Midjourney

NExT-GPT 的架构分为三个层次:具有线性投影的编码阶段,负责生成标记的 Vicuna LLM 核心,以及具有模态特定的转换层和解码器的解码阶段。值得注意的是,在训练过程中,模型的大部分参数,包括编码器、解码器和 Vicuna 模型,都保持冻结状态,只有约1% 的参数会被更新。这一方法有助于降低训练成本同时保持性能水平。

该模型通过使用示例对话数据集进行训练,该数据集包含人类用户与聊天机器人之间涉及多模态输入和输出的情景,总共包括约5,000个对话。NExT-GPT 在多模态生成基准测试中取得了竞争性的结果,并在不同场景下通过人类评审获得了高分,其中图像生成场景的得分高于视频和音频。

NExT-GPT 独特之处在于其能够在用户请求特定类型内容(如图像、视频或声音)时生成模态信令标记。这些标记在语言模型的词汇表中是预定义的,并在训练期间被包含其中。

NExT-GPT 的开源发布为研究者和开发者提供了一个强大的多模态语言模型,可以处理各种输入和输出,为不同媒体类型的复杂人工智能应用铺平了道路。其开源可用性对于多模态人工智能是一项重要的贡献,使得开发者能够创建能够无缝集成文本、图像、视频和音频的应用。该模型在内容生成、多媒体分析以及能够理解并响应用户首选格式的虚拟助手等各个领域都具有潜在的应用前景。

举报

  • 相关推荐
  • Kimi即将推出新一代万亿大模型:开源王者刷新 去年已超GPT5

    国产开源大模型即将迎来新一波升级,除了万众期待的DeepSeek V4之外,月之暗面的Kimi也开始招募测试人员了,意味着很快也会上线。 根据Kimi的公告,他们即将开启Kimi新模型API内测计划,已完成「企业认证」的 Kimi 开放平台用户,均可申请。 前不久智谱、Minimax发布新一代模型之前都有招募测试的操作,而且内测没多久就开放了大模型的公开访问及API,随后又进一步开源给社�

  • AI日报:字节推StoryMem系统;月之暗面再推多模态新模型;AI眼镜Pickle 1发布

    本期AI日报聚焦多项AI领域进展:字节跳动推出StoryMem系统,提升AI生成视频角色一致性28.7%;月之暗面计划2026年推出多模态模型K2.1/K2.5;智能眼镜Pickle 1实现“无限记忆”与主动交互;清华与OpenBMB开源音频模型评测框架UltraEval-Audio;OpenAI押注语音交互,整合团队重构音频系统;开源工具Antigravity支持多账号切换,突破AI使用限制;元象开源面向泛娱乐场景的大模型XVERSE-Ent;苹果回应“国行版AI功能阉割”传闻,提醒用户勿通过第三方强行激活。

  • 每日互动助力开吧APP实现融媒体运营效率翻倍

    大数据与AI正重塑新闻媒体行业格局。杭州文广集团旗下“开吧”APP作为融媒标杆,集成电台直播、路况查询等本地化服务,深受车主与市民青睐。为提升运营效率与用户体验,开吧携手个推,将大数据与AI深度应用于运营分析、用户洞察、内容推荐等场景,最终实现运营决策效率提升200%,打造融媒数智化转型新标杆。数据化运营让每一次决策都有数可依,而立体画像构建则让每一次推送都“正中需求”。此次合作不仅是双方优势互补的成功实践,更为融媒行业提供了可复用的数智化升级方案。

  • AI日报:阿里云推多模态交互开发套件;智谱AI港股首日上市;混元发布 HY-Motion1.0开源3D 角色动画生成模型

    阿里云发布多模态交互开发套件,集成通义千问、万相、百聆三大模型,赋能智能硬件。腾讯混元推出开源3D角色动画生成模型HY-Motion 1.0,助力游戏与动画制作。智谱AI在港上市,募资43亿港元,加速商业化落地。抖音在深圳南山设立第二总部,聚焦AI与泛视频研发。OpenAI推出ChatGPT Health,强化健康数据管理与隐私保护。法拉第未来宣布进军具身智能机器人领域,推动汽车与机器人业务协同。蚂蚁阿福月活超3000万,AI健康赛道进入中美竞速新阶段。MiroThinker 1.5以300亿参数实现媲美万亿模型的性能,显著降低推理成本。

  • 百度发布文心大模型5.0正式版:2.4万亿参数 原生全模态建模

    今日,百度文心Moment”大会在上海召开。 大会现场,百度正式发布了文心大模型5.0正式版。 据介绍,该模型基于原生全模态建模,拥有2.4万亿参数,支持文本、图像、音频、视频等多种信息理解输出。 目前,文心5.0正式版可在百度千帆平台调用,文心一言官网、百度慧播星及文心助手等其他百度AI产品也已接入。 此前,文心5.0以1460分位列LMArena文本榜国内第一、全球第八�

  • 小米MiMo开源大模型充值功能上线:即将开启付费模式!

    小米MiMo开源大模型1月20日宣布开启付费模式,但为新老用户准备了专属免费额度,用户可登录后前往账户余额页面查收。计费系统近期将正式上线,此前API调用继续免费开放。MiMo-V2-Flash模型定价公布,国内用户需完成个人实名认证后充值,海外用户无需实名可直接充值。该模型在推理、代码和智能体场景表现突出,综合表现跻身当前开源大模型第一梯队,此前不少网友体验后表示其响应速度相比豆包、DeepSeek等模型更快。

  • AI日报:千问Qwen3-VL双子星开源;腾讯内测“上头蛙”AI互动故事小程序;小鹏祭出“物理世界大模型”

    本期AI日报聚焦多领域进展:阿里开源Qwen3-VL多模态检索模型,腾讯推出AI互动故事小程序“上头蛙”,小鹏发布第二代VLA模型剑指L4智驾。MiniMax港股上市首日暴涨42%,高德世界模型登顶国际榜单。阿里千问下载量突破7亿,单月击败Meta、OpenAI总和。谷歌Gmail引入AI专属收件箱与自然语言搜索,马斯克xAI进军“氛围编程”推Grok Build。

  • 国产全球最强医疗大模型Baichuan-M3发布:已超越GPT-5.2与人类医生

    AI大模型今年会向更专业的方向发起猛攻,除了AI编程之外,AI医疗也成为一大重点,OpenAI刚收购了一个医疗初创公司,Cluade也推出了AI医疗助手。 今天还有一家国产大模型新品也将目光瞄准了医疗,那就是Baichuan-M3,这是知名大佬王小川投资成立的百川智能发布的AI医疗大模型,号称全球最强。 据百川智能介绍,Baichuan-M3 专为医疗场景深度优化,融合海量医学文献、临床指南�

  • 全球首个通用实时世界模型PixVerse R1发布 视听媒体进入交互时代

    爱诗科技发布全球首个支持1080P实时生成视频模型PixVerse R1,实现“所想即所见、所说即所现”的实时交互体验。该模型基于Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎三大核心技术,将视频生成延迟降至“即时”响应,标志着AIGC视频生成从“静态输出”迈入“实时交互”新阶段。

  • -30℃极寒考验:媒体即将在漠河实测雅迪华宇钠电性能

    近日,雅迪华宇钠电池将前往“神州北极”漠河,在极寒环境下开展性能实测。本次测试由行业媒体联合发起,旨在通过实地测试、现场直播等方式,全面评估钠电池在极端低温下的续航、动力、充电及应急补能等关键数据。测试将围绕极寒续航、低温长坡动力、超低温充电效率及光储充系统稳定性四个维度展开,以客观反映其在各种使用场景中的表现。测试过程及结果将通过行业媒体平台进行记录与分享,为用户提供关于钠电池耐寒能力的实际参考。

今日大家都在搜的词: