首页 > 业界 > 关键词  > 正文

新加坡国立大学开源多模态语言模型 NExT-GPT,助力多媒体 AI 应用发展

2023-11-29 14:20 · 稿源:站长之家

**划重点:**

1. 🌐 **多模态能力:** NExT-GPT 可处理文本、图像、视频和音频,为开发者提供强大的多模态语言模型。

2. 🧠 **架构与训练:** 采用三层架构,包括线性投影、Vicuna LLM 核心和模态特定的转换层。通过 MosIT 技术进行中间层的训练。

3. 🌟 **开源贡献:** NExT-GPT 的开源使得研究者和开发者能够创建能够无缝集成文本、图像、视频和音频的应用,潜在应用领域广泛。

站长之家(ChinaZ.com) 11月29日 消息:新加坡国立大学(NUS)NExT 研究中心发布了开源多模态大语言模型 NExT-GPT,为处理文本、图像、视频和音频等多样化输入提供了强大支持,推动了多媒体人工智能应用的进一步发展。

NExT-GPT 提供了一个基于聊天的界面,允许用户输入文本、图像、视频或音频文件。该模型能够理解并针对这些输入做出回应,回答问题或生成相应内容。这一多模态人工智能系统融合了预训练的编码器和解码器,包括 Vicuna 和 Stable Diffusion,并通过 NExT 团队研发的 Modality-switching Instruction Tuning(MosIT)技术进行中间层的训练。

AI机器人上班

图源备注:图片由AI生成,图片授权服务商Midjourney

NExT-GPT 的架构分为三个层次:具有线性投影的编码阶段,负责生成标记的 Vicuna LLM 核心,以及具有模态特定的转换层和解码器的解码阶段。值得注意的是,在训练过程中,模型的大部分参数,包括编码器、解码器和 Vicuna 模型,都保持冻结状态,只有约1% 的参数会被更新。这一方法有助于降低训练成本同时保持性能水平。

该模型通过使用示例对话数据集进行训练,该数据集包含人类用户与聊天机器人之间涉及多模态输入和输出的情景,总共包括约5,000个对话。NExT-GPT 在多模态生成基准测试中取得了竞争性的结果,并在不同场景下通过人类评审获得了高分,其中图像生成场景的得分高于视频和音频。

NExT-GPT 独特之处在于其能够在用户请求特定类型内容(如图像、视频或声音)时生成模态信令标记。这些标记在语言模型的词汇表中是预定义的,并在训练期间被包含其中。

NExT-GPT 的开源发布为研究者和开发者提供了一个强大的多模态语言模型,可以处理各种输入和输出,为不同媒体类型的复杂人工智能应用铺平了道路。其开源可用性对于多模态人工智能是一项重要的贡献,使得开发者能够创建能够无缝集成文本、图像、视频和音频的应用。该模型在内容生成、多媒体分析以及能够理解并响应用户首选格式的虚拟助手等各个领域都具有潜在的应用前景。

举报

  • 相关推荐
  • 智象多模态生成大模型3.0发布 离幻觉更远与离落地更近

    12月28日,智象未来科技有限公司在安徽人工智能产业先导区启动仪式中,正式发布智象多模态生成大模型3.0版。启动仪式上,智象未来创始人兼首席执行官梅涛总结了2024年人工领域技术发展的五个标志性事件,分别是以Sora为代表的视觉生成物理世界模拟器、以ChatGPT4o为代表的多模态模型、以GPT-o1为代表的从预训练到后训练推理优化、多模态大模型赋能具身智能实现软硬件结合,以及人工智能学者荣获诺贝尔化学奖表明AI赋能科研范式变革。本次活动现场,智象未来与人民网、上海电影集团、彩讯科技、捷成华视网聚、安徽联通、中国移动咪咕音乐等12家生态伙伴企业代表签约,共同打造集技术研发、产业化应用、市场推广于一体的生态体系。

  • 多模态卷王阶跃震撼6连发,春节档最强AI家族来袭!

    【新智元导读】开年放大招!阶跃星辰重磅升级Step系基座模型全家桶,一口气连更上新6款模型。作为业内公认的「多模态卷王」,这家AI明星公司目前已拥有业内最全模型矩阵。在通过AGI的征程上,只有那些能够持续积累的玩家,才有可能走到最后。

  • AI日报:Kimi发布多模态图片理解模型API;周鸿祎参演AI短剧开拍;MiniMax-01系列模型开源;星火同传语音大模型发布

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、月之暗面Kimi多模态图片理解模型API发布2025年1月15日,北京月之暗面科技有限公司正式发布了全新多模态图片理解模型moonshot-v1-vision-preview,该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力,旨在帮助Kimi更好地理解世界。通过模块化设计,MiniCPM-o2.6集成了多种强大组件,支持实时处理和多语言功能。

  • AI日报:赶超o1!国产大模型DeepSeek R1开源;Kimi多模态思考模型k1.5登场;清影2.0上线智谱清言

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、国产大模型再突破!DeepSeekR1开源,性能直逼OpenAI,开启AI平权新时代DeepSeek最近发布并开源了其最新研发的大型语言模型R1,标志着国产AI技术的一次重大突破。预计2024年第四季度出货量同比增长3.7%,企业IT系统升级需求增加,AI笔记本电脑将改变用户体验,推动市场发展。

  • 中科金财多模态应用拓展新领域,AI大剧1月24日起快手独播

    北京中科金财科技股份有限公司与北京快手科技有限公司、北京北斗映画传媒有限公司、南京造火文化传媒有限公司联合出品的微短剧《浮梦吟》,将于2025年1月24日起在快手平台全网独播。这是快手首部将实景拍摄与AIGC制作结合的精品古风微短剧,在奇幻叙事中融入现实意义主题,借助AI技术呈现东方美学,打造现象级精品之作。中科金财将继续深化AI技术在多模态领域的研究与应用,定期评测国内外领先的多模态大模型,向客户提供优质AIGC技术服务,搭建全球多模态创作与应用生态,降低创作门槛,为行业带来更多优质内容供给,并继续拓展多模态应用服务领域,低成本解决长尾企业宣传片生产、投放视频制作等需求,利用AI技术创造业务价值,推动产业的智能化升级。

  • 重磅!微软开源最强小模型Phi-4,超GPT-4o、可商用

    微软研究院开源了目前最强小参数模型——phi-4。去年12月12日,微软首次展示了phi-4,参数只有140亿性能却极强,在GPQA研究生水平、MATH数学基准测试中,超过了OpenAI的GPT-4o,也超过了同类顶级开源模型Qwen2.5-14B和Llama-3.3-70B。在与其他类似规模和更大规模的模型比较中,phi-4在12个基准测试中的9个上优于同类开源模型Qwen-2.5-14B-Instruct。

  • 搭载多模态AI助理 三星Galaxy S25系列重塑移动AI新格局

    正文不久前,市场研究机构CounterpointResearch发布了一份报告,预计到2028年,全球生成式AI智能手机的出货量将达到7.3亿台,其市场份额占比将攀升至54%,这一数字是2024年预期水平的三倍以上。到2028年,在售价超过250美元的智能手机中,预计每10部中就有9部将具备生成式AI功能。这一切成就,都是三星GalaxyS系列坚持长期主义创新理念、不懈追求技术突破与用户体验优化的璀璨结晶。

  • 多模态交互+健康新突破,歌尔发布新一代智能指环参考设计

    传感器技术、大数据、云计算、物联网以及人工智能技术的蓬勃发展,为智能穿戴设备集成更多健康监测功能提供技术支持。智能指环作为新型可穿戴终端,可将最新技术与生活方式结合,凭借其便携和实时性在健康监测、交互领域展现出独特优势。歌尔自2013年进入智能穿戴领域,可根据客户需求提供不同产品形态的智能穿戴整体技术制造方案,未来,歌尔将继续推动技术革新,不断探索智能穿戴设备的新可能,助力用户实现便捷、智能、健康的生活方式。

  • AI医疗新纪元:复旦王烁研究员引领多模态医学人工智能技术革新

    在人工智能与医疗健康深度融合的今天,AI技术正以前所未有的速度推动着医疗行业的革新与进步。AI医疗不仅提高了医疗服务的精准性和效率,更为患者带来了更加便捷、高效的诊疗体验。松果基金将继续发挥其独特作用,为青年学者提供更多元化的支持和帮助,助力他们在AI领域取得更大的科研成果。

  • 阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

    今日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。这证明了过程奖励模型能够显著提高推理的可靠性,为未来开发推理过程监督技术开辟了新的途径。