新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT

2023-09-18 14:14 · 稿源：站长之家

要点:
1、NExT-GPT支持任意模态的输入和输出，实现了从任一模态到任一模态的转换。
2、NExT-GPT通过组合开源的编码器、语言模型和解码器实现了全能的多模态能力。
3、NExT-GPT实现了端到端的训练和指令微调，具有较好的多模态表示对齐能力。

站长之家（ChinaZ.com）9月18日消息:继各类单一模态输入的多模态语言模型后，新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出，可以实现文本、图像、语音和视频之间的自由转换，是第一个实现从任一模态到任一模态转换的通用多模态系统。

项目地址:https://next-gpt.github.io

代码地址:https://github.com/NExT-GPT/NExT-GPT

论文地址:https://arxiv.org/abs/2309.05519

NExT-GPT的优势在于它实现了真正意义上的任意模态输入到任意模态输出，而不是仅仅支持某一种固定的输入输出模式。用户可以随意组合不同模态进行查询，NExT-GPT都可以进行理解并用请求的模态形式给出响应。这充分模拟了人类处理信息的能力，是向通用人工智能目标迈进的重要一步。

在技术上，NExT-GPT并没有创新算法，而是站在巨人的肩膀上，通过组合优化利用现有的各类开源模块实现全能目标。具体来说，模型包含三个层次:第一，使用各类模态编码器对输入进行编码;第二，语言模型负责复杂推理;第三，解码器生成各种模态输出。

NExT-GPT的独特之处在于实现了模态特征表达的端到端对齐训练，以及针对多模态输出做了指令微调。这保证了在输入理解、内部推理和输出生成各层次间特征的有效传递，从而实现了优秀的多模态理解与生成能力。

虽然NExT-GPT目前还有待进一步扩展，但其展示了构建通用多模态系统的可能性，为人工智能研究提供了宝贵的借鉴。后续工作可以考虑扩展更多模态，使用更大规模的语言模型基座，以及改进多模态生成策略等。

（举报）

相关推荐

关键词：

大模型

来教装展，看全栈自主可控国产教育大模型何以赋能教学？

10月24-26日，第86届中国教育装备展在青岛举行。科大讯飞以“全栈自主可控国产教育大模型”为核心，展示五大智慧教育场景：智慧教学通过AI黑板实现师生协同，提升效率；科学教育推出AI虚拟科学家互动平台，激发探索精神；身心健康方案构建体育健康闭环与心理服务体系；教育治理推出数据驱动决策平台；学前教育引入游戏化学习产品。目前方案已覆盖全国5万余所学校，服务超1.3亿师生，展现AI从工具升级为“教育伴侣”的价值。

教育装备展示会人工智能+教育智慧教学
升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

vivo发布全新OriginOS 6系统，升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同，实现精准意图识别与多模态交互，支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合，提供低延迟、高情感语音响应。同时拓展无障碍服务，为视障用户提供实时视觉辅助。未来将持续深化AI生态建设，打造更智能便捷的原生体验。

originOS6 蓝心小V AI原生操作系统
金融行业用好大模型，只有“垂直”一个解

文章探讨大模型在金融等复杂业务场景的落地挑战，指出通用模型难以满足行业对准确性、可解释性及合规性的高要求。垂直模型通过内化行业核心知识与能力，成为解决复杂业务问题的关键路径。实践显示，金融垂直模型已在营销、客服、风控等场景实现显著成效，如提升效率80%、降低风险。未来需通过数据飞轮、深度适配等技术实现模型持续迭代，构建一站式金融垂直模型生产工场。

金融大模型垂直模型 Agentic
火山 AI 搜索引擎升级：大模型时代重塑用户体验与业务增长

火山引擎近日升级企业级AI搜索助手，底层模型升级至豆包大模型1.6，全面提升搜索、推荐、问答能力。该平台支持“开箱即用”，企业可快速构建专属对话式搜索助手，已在电商导购、视频新闻、AI搜图、智能硬件等多场景落地，帮助优化产品体验，为业务增长注入新动能。

火山AI搜索引擎豆包大模型1.6 企业级搜推AI助手
火山引擎：豆包大模型日均tokens使用量突破30万亿

今日在FORCE LINK AI创新巡展武汉站上，字节跳动旗下火山引擎披露最新大模型token调用数据。火山引擎总裁谭待现场表示，豆包大模型使用量从2024年5月1200亿tokens增长253倍至今年9月的超30万亿tokens。在企业市场，据IDC9月报告，2025年上半年，中国公有云大模型调用量达536.7万亿tokens。

火山引擎豆包大模型 token调用数据
京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东在11.11大促期间升级直播技术，推出“立体3D技术”和“JoyAI大模型”等创新，打破传统直播边界。立体3D技术实现裸眼360度商品展示，用户无需额外设备即可旋转查看产品细节；虚拟偶像Aura等跨次元互动增强趣味性。AI全链路工具简化主播运营，提升内容创作效率。这些举措为用户带来沉浸式购物体验，引领直播电商技术革新方向。

京东11.11 立影3D技术 JoyAI大模型
金蝶征信“金融风控大模型” 摘得AFAC2025大奖

一家社区水果店凭借收款码的36个月交易记录，将银行贷款额度从7万元提升至10万元。这揭示了中国超3亿商户正通过二维码流水数据构建数字信用体系：使用收款码满六个月的商户获贷可能性超60%，三年后跃升至90%。此类高频实时数据正重塑风控逻辑——不看抵押、不看报表，只忠实记录每笔交易背后的经营事实。金蝶征信凭借AI与知识图谱技术，穿透至6层交易链条，构建包含4.45亿交易关系的产业互联网图谱，助力金融机构实现精准信贷匹配。其智能风控系统已推动合作机构放贷额度提升50%，标志着风控模式从“经验驱动”向“数据智能驱动”的转型。

社区水果店贷款额度收款码融资
AI防护，与时俱进：信通院X电子科大X腾讯云共话大模型安全

大模型技术推动人工智能成为生产力核心，但也放大数字风险。专家指出AI安全需构建覆盖模型安全、交互检测、权限管控的智能底座，通过标准化体系实现全生命周期防护。腾讯云等企业正通过网关架构、红队演练等方式提升安全能力，强调需政企学研协同构建开放生态，在创新中守住安全底线。

大模型技术智能体应用人工智能
00后担大梁交大本科生在计算机安全顶级会议上实现突破，打造大模型全方位安全分析底座

上海交大本科生徐菲悦为第一作者的论文《大型语言模型鲁棒性与对齐的多维评估框架》被IEEE S&P 2026录用。该研究提出“安全魔方”评估体系，构建覆盖攻击、防御与判定三大维度的多指标框架，系统化刻画LLM安全性，新增攻击稳定性、跨模型迁移性等关键度量，弥补传统单一指标不足，为研究比较、安全基线制定及监管审查提供可操作的通用量表。

大型语言模型安全评估 IEEE
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT

今日大家都在搜的词：

热文

3 天
7天

新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT

来教装展，看全栈自主可控国产教育大模型何以赋能教学？

升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

金融行业用好大模型，只有“垂直”一个解

火山 AI 搜索引擎升级：大模型时代重塑用户体验与业务增长

火山引擎：豆包大模型日均tokens使用量突破30万亿

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

金蝶征信“金融风控大模型” 摘得AFAC2025大奖

AI防护，与时俱进：信通院X电子科大X腾讯云共话大模型安全

00后担大梁交大本科生在计算机安全顶级会议上实现突破，打造大模型全方位安全分析底座

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

今日大家都在搜的词：

热文

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

华为nova Flip S小折叠开售：首发3388元起

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

REDMI K90标准版12+512GB降价300元小米回应：可退差价

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

华为鸿蒙HarmonyOS 6公测版开启推送

站长商机