首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT

2023-09-18 14:14 · 稿源:站长之家

要点:

1、NExT-GPT支持任意模态的输入和输出,实现了从任一模态到任一模态的转换。

2、NExT-GPT通过组合开源的编码器、语言模型和解码器实现了全能的多模态能力。

3、NExT-GPT实现了端到端的训练和指令微调,具有较好的多模态表示对齐能力。

站长之家(ChinaZ.com)9月18日 消息:继各类单一模态输入的多模态语言模型后,新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出,可以实现文本、图像、语音和视频之间的自由转换,是第一个实现从任一模态到任一模态转换的通用多模态系统。

image.png

项目地址:https://next-gpt.github.io

代码地址:https://github.com/NExT-GPT/NExT-GPT

论文地址:https://arxiv.org/abs/2309.05519

NExT-GPT的优势在于它实现了真正意义上的任意模态输入到任意模态输出,而不是仅仅支持某一种固定的输入输出模式。用户可以随意组合不同模态进行查询,NExT-GPT都可以进行理解并用请求的模态形式给出响应。这充分模拟了人类处理信息的能力,是向通用人工智能目标迈进的重要一步。

image.png

在技术上,NExT-GPT并没有创新算法,而是站在巨人的肩膀上,通过组合优化利用现有的各类开源模块实现全能目标。具体来说,模型包含三个层次:第一,使用各类模态编码器对输入进行编码;第二,语言模型负责复杂推理;第三,解码器生成各种模态输出。

image.png

NExT-GPT的独特之处在于实现了模态特征表达的端到端对齐训练,以及针对多模态输出做了指令微调。这保证了在输入理解、内部推理和输出生成各层次间特征的有效传递,从而实现了优秀的多模态理解与生成能力。

虽然NExT-GPT目前还有待进一步扩展,但其展示了构建通用多模态系统的可能性,为人工智能研究提供了宝贵的借鉴。后续工作可以考虑扩展更多模态,使用更大规模的语言模型基座,以及改进多模态生成策略等。

举报

  • 相关推荐
  • 从“看家”到“懂家”:海雀大模型摄像头,重塑家庭主动智能新范式

    1月8日至11日,海雀科技在阿里云通义千问智能硬件展上发布搭载AI大模型的海雀摄像头。该产品不仅是家用智能摄像头首次在设备端直接使用大模型,更标志着摄像头从被动记录工具向主动服务的AI伙伴转变。海雀摄像头能看、会听、会思考、会执行指令,深入家庭场景,为育儿家庭提供“全能陪聊搭子”与“安心守护者”,为有老人的家庭提供“可对话的养生助手”,并成为所有家庭的“智能管家”。通过千万用户数据,海雀精准切入需求,以“主动智能”引领行业,为AI硬件赛道提供了从技术堆砌到场景融合的参考范本。

  • 20+大模型与70+智能体调度!李未可AI眼镜定义群体智能新范式

    文章以丹尼尔·卡尼曼的“快与慢”思维系统理论为引,介绍了李未可AI智能眼镜如何将AI融入人类最自然的“看、听、说”交互中。该产品通过“超能李未可”系统,结合自研大模型与多智能体协同的“群体智能”模式,实现了从快速直觉响应到深度理性思考的无缝衔接。它能高效处理实时翻译、信息查询等日常任务,并在需要时启动多专家智能体进行复杂规划与创意生成,致力于成为用户随身、随思、随需的“第二大脑”,让技术回归增强人类感知与创造能力的本质。

  • 花3000元让AI改口,大模型的尽头是广告?

    大模型界的翘楚OpenAI,面对每年数十亿美元的研发成本,正迎来一个艰难的决定:其员工正在琢磨如何让 ChatGPT 在用户提出相关问题时,优先显示赞助内容。 也就是说,当用户让大模型推荐一家眼镜店、一款工业传感器、一家民宿时,很可能大模型给出的是企业的软广。但大模型本身可能并不知道答案被“精心设计”过,它依然兢兢业业,会根据各个指标筛选出你想要的产品�

  • 京东京造第二批AI玩具全新上线:全年龄段覆盖 搭载JoyInside大模型

    京东京造1月19日上线第二批自研AI玩具,覆盖全年龄段用户需求。接入JoyInside智能系统的硬件产品,平均对话轮次增长超120%。多款产品上线后迅速售罄且退货率极低,市场反响热烈。在原有儿童陪伴玩具基础上,此次拓展了产品线,推出针对年轻人和老年人的AI玩具,包括专为银发人群设计的“唠唠鹦”,以及面向年轻人的“球球”和“墨墨”。“唠唠鹦”内置方言、养生知识、戏曲、评书等内容,并提供紧急呼救、健康服务联动、子女日志同步等守护功能。针对年轻人的产品则以情绪感知和善解人意为特点,能主动提供安慰与陪伴。

  • 苹果谷歌官宣合作:新一代Siri选定使用Gemini大模型

    苹果公司宣布将与谷歌展开深度合作,借助谷歌的人工智能技术为今年晚些时候推出的产品功能,尤其是Siri,提供强大的AI支持。 根据合作内容,谷歌将通过其先进的Gemini模型和成熟的云技术,为苹果未来的基础模型注入核心动力。苹果在官方声明中明确表示,经过审慎评估,谷歌的技术为苹果基础模型奠定了最为坚实的基础,公司对即将为用户带来的创新体验充满期待。

  • 国产全球最强医疗大模型Baichuan-M3发布:已超越GPT-5.2与人类医生

    AI大模型今年会向更专业的方向发起猛攻,除了AI编程之外,AI医疗也成为一大重点,OpenAI刚收购了一个医疗初创公司,Cluade也推出了AI医疗助手。 今天还有一家国产大模型新品也将目光瞄准了医疗,那就是Baichuan-M3,这是知名大佬王小川投资成立的百川智能发布的AI医疗大模型,号称全球最强。 据百川智能介绍,Baichuan-M3 专为医疗场景深度优化,融合海量医学文献、临床指南�

  • 昇腾赋能 TransMLA:无需重训突破架构壁垒,助力主流大模型高效适配 MLA

    北京大学张牧涵团队提出TransMLA转化框架,实现无需重训即可将主流大模型(如LLaMA、Qwen)从GQA架构迁移至MLA架构。该框架通过四大核心技术模块解决迁移痛点:结构映射、RoRoPE位置编码适配、频率折叠融合及KV矩阵均衡化,在昇腾算力支持下,成功在LLaMA-2-7B上裁剪68.75%的KV缓存,仅轻微性能损失。昇腾硬件的高效并行架构与存储优化体系为技术落地提供关键支撑,推动TransMLA集成至高性能推理框架生态,大幅降低企业升级成本,为长上下文推理提供自主算力解决方案。

  • 苹果新一代Siri要来了!选定谷歌Gemini大模型提供支持

    苹果将与谷歌合作,为今年晚些时候推出的产品功能(如Siri)提供人工智能支持。 谷歌将通过Gemini模型和云技术,为苹果未来的基础模型提供动力。 苹果在声明中表示:经过仔细评估,我们认为谷歌的技术为苹果基础模型提供了最强大的基础,我们对它将为用户带来的创新体验感到兴奋。” 据悉,苹果拟每年支付谷歌约10亿美元,获取定制化Gemini模型使用权,核心版本为1.

  • 极光祝贺智谱成为全球首家大模型上市公司:继续以全球化消息与认证能力护航 AI 应用规模化

    极光祝贺智谱华章科技股份有限公司(简称“智谱”)在香港联交所主板上市,成为全球首家以通用人工智能(AGI)基座模型为核心业务的上市公司。智谱本次全球发行价为每股116.20港元,募集资金约43.5亿港元。极光表示,随着AI商业化加速,企业对高并发消息触达、身份认证等安全合规能力的需求持续提升。极光将继续通过全球化产品与交付能力,为包括智谱在内的众多AI企业提供用户增长与账号安全支持。

  • 智能座舱新战事:大模型不是答案,只是起点

    文章指出,2026年的智能座舱可能正处在类似2007年iPhone问世前的变革时刻。当前汽车行业面临范式瓶颈,而大模型被视为关键变量,将重构人车交互,赋予汽车理解、预测和自主行动能力。智能座舱的决胜点在于L4级智能驾驶的实现,届时车辆将转变为移动的“生活或工作空间”。然而,其发展面临从底层架构到应用生态的多层挑战,非单一企业能独立完成。文章强调,大模型只是入场券,真正的差距在于能否构建持续产生价值和粘性的生态能力。未来的竞争将围绕打造懂用户、能协同、会成长的智能空间展开。

今日大家都在搜的词: