新加坡国立大学开源多模态语言模型 NExT-GPT，助力多媒体 AI 应用发展

2023-11-29 14:20 · 稿源：站长之家

**划重点:**
1. 🌐 **多模态能力:** NExT-GPT 可处理文本、图像、视频和音频，为开发者提供强大的多模态语言模型。
2. 🧠 **架构与训练:** 采用三层架构，包括线性投影、Vicuna LLM 核心和模态特定的转换层。通过 MosIT 技术进行中间层的训练。
3. 🌟 **开源贡献:** NExT-GPT 的开源使得研究者和开发者能够创建能够无缝集成文本、图像、视频和音频的应用，潜在应用领域广泛。

站长之家(ChinaZ.com) 11月29日消息:新加坡国立大学（NUS）NExT 研究中心发布了开源多模态大语言模型 NExT-GPT，为处理文本、图像、视频和音频等多样化输入提供了强大支持，推动了多媒体人工智能应用的进一步发展。

NExT-GPT 提供了一个基于聊天的界面，允许用户输入文本、图像、视频或音频文件。该模型能够理解并针对这些输入做出回应，回答问题或生成相应内容。这一多模态人工智能系统融合了预训练的编码器和解码器，包括 Vicuna 和 Stable Diffusion，并通过 NExT 团队研发的 Modality-switching Instruction Tuning（MosIT）技术进行中间层的训练。

AI机器人上班

图源备注：图片由AI生成，图片授权服务商Midjourney

NExT-GPT 的架构分为三个层次:具有线性投影的编码阶段，负责生成标记的 Vicuna LLM 核心，以及具有模态特定的转换层和解码器的解码阶段。值得注意的是，在训练过程中，模型的大部分参数，包括编码器、解码器和 Vicuna 模型，都保持冻结状态，只有约1% 的参数会被更新。这一方法有助于降低训练成本同时保持性能水平。

该模型通过使用示例对话数据集进行训练，该数据集包含人类用户与聊天机器人之间涉及多模态输入和输出的情景，总共包括约5，000个对话。NExT-GPT 在多模态生成基准测试中取得了竞争性的结果，并在不同场景下通过人类评审获得了高分，其中图像生成场景的得分高于视频和音频。

NExT-GPT 独特之处在于其能够在用户请求特定类型内容（如图像、视频或声音）时生成模态信令标记。这些标记在语言模型的词汇表中是预定义的，并在训练期间被包含其中。

NExT-GPT 的开源发布为研究者和开发者提供了一个强大的多模态语言模型，可以处理各种输入和输出，为不同媒体类型的复杂人工智能应用铺平了道路。其开源可用性对于多模态人工智能是一项重要的贡献，使得开发者能够创建能够无缝集成文本、图像、视频和音频的应用。该模型在内容生成、多媒体分析以及能够理解并响应用户首选格式的虚拟助手等各个领域都具有潜在的应用前景。

（举报）

相关推荐

关键词：

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，支持图文、语音、视频输入及多样化内容输出，结合火山引擎的豆包大模型技术，提供联网问答、智能识图、创意修图、出行规划等场景服务，实现“有问必答、答则精准”的智慧体验，成为用户贴身的“万能管家”。

荣耀Magic8系列 MagicOS10 YOYO助理
荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

近期AI炒币大赛Alpha Arena引发关注，六款主流大模型用1万美元本金在币圈实战。戏剧性的是，被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重，而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶，DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen，投资人Chamath也承认将业务转向中国模型。市场用真金白银投票：预测平台押注Qwen胜率高达36%，远超OpenAI的3%。这场竞赛�

AI炒币大赛 Alpha Arena
被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

本文系统介绍生成式引擎优化(GEO)的核心方法，帮助内容从“给人看”升级为“AI友好型”。关键策略包括：1.采用结构化写作框架，在开头设置可直接回答问题的“黄金段落”；2.运用分步清单、数据标注、FAQ等模块提升内容引用率；3.通过多平台同步分发增加曝光；4.使用AIBase等工具量化监测内容被AI引用的频率与场景，并给出5天落地执行表。

AI搜索友好型内容创作 GEO Generative
向AI构建能力，用模型产出价值，让金融优质发展

2025年云栖大会在杭州举行，聚焦“云智一体+碳硅共生”主题，展现中国前沿科技生命力。阿里云智能集团副总裁张鹰介绍，“通义点金”平台全新升级，致力于构建金融行业垂直模型，打造具备业务洞察力的“专家级智能体”。核心突破包括：通过飞轮平台实现模型与业务双向螺旋上升，构建可观测、可评测、可迭代能力；赋予模型“自知之明”，精准调用工具并内化人类逻辑思维；建立多层次交叉验证测评体系，确保金融级严谨性。未来将持续推动通用模型与金融专业知识的有机结合，助力金融业务核心效能提升。

云栖大会人工智能大模型
荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

本期AI日报聚焦多项技术突破：Veo 3.1视频生成模型实现角色一致性与多场景叙事升级；蚂蚁发布万亿参数Ling-1T语言模型，推理能力领跑行业；xAI推出电影级视频生成模型Imagine v0.9；软银斥资53.75亿美元收购ABB机器人业务布局物理AI；Vercel v0新增图像编辑功能简化设计流程；OpenAI Sora2首日安装量飙升至应用商店第三，同时引发深度伪造伦理担忧；Lovart平台限时免费开放Sora2无水印视频生成；ChatGPT推出应用生态，正式升级为多功能服务平台。

生成式视频 Veo 3.1
全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
寒武纪深耕智能芯片技术与软件生态助力大模型应用落地

良好的软件环境能降低AI应用开发门槛，增强用户粘性，对AI芯片发展至关重要。寒武纪专注AI芯片研发，掌握处理器架构、SoC设计等硬件技术及编程框架、编译器、驱动等软件技术。通过芯片、硬件板卡、基础软件三大团队协同，为产品提供全链条技术支持，并构建开发者生态。未来将通过开放生态推动云计算、金融、医疗等行业的智能化升级，以市场为导向保持技术领先。

人工智能芯片软件平台大模型应用
AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

微软发布首款自研图像生成模型MAI-Image-1，跻身LMArena前十，注重实用性与光影效果；百度世界2025大会将聚焦大模型与AI全球化战略；Meta新技术使RAG推理速度提升30倍；开源项目nanochat实现低成本构建聊天AI；谷歌NotebookLM新增动漫视频生成功能；中国农大发布神农大模型3.0助力智慧农业；腾讯启动"青云奖学金"培养AI人才；苹果FS-DFM模型长文本生成效率提升128倍；谷歌Lens整合AI图像编辑功能；港大与美团提出CodePlot-CoT方法，通过代码绘图解决数学难题，性能提升21%。

AI 图像生成微软

今日大家都在搜的词：

热文

3 天
7天

新加坡国立大学开源多模态语言模型 NExT-GPT，助力多媒体 AI 应用发展

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

荐Qwen登顶AI赚钱大赛只是开始？“弃GPT投Qwen”已在硅谷蔓延开来

被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

向AI构建能力，用模型产出价值，让金融优质发展

荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

寒武纪深耕智能芯片技术与软件生态助力大模型应用落地

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

今日大家都在搜的词：

热文

华为nova Flip S小折叠开售：首发3388元起

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

REDMI K90标准版12+512GB降价300元小米回应：可退差价

小米汽车发布跨年购置税补贴方案至高不超15000元

卢伟冰：REDMI K90标准版12+512首销月直降300 售价2899元

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

华为nova Flip S小折叠开售：首发3388元起

真我GT8发布：售价2899元起骁龙8至尊版双芯

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

余承东官宣华为路由X3 Pro 采用“日照金山”设计

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

站长商机