AnyGPT:实现任意模态输入到任意模态输出

2024-02-20 15:24 · 稿源：站长之家

划重点:
1. 🧠 创新性:AnyGPT采用离散表示技术，实现对语音、文本、图像和音乐等多模态输入的统一处理，无需修改大语言模型结构或训练范式。
2. 🔄 灵活性:通过数据预处理，AnyGPT能稳定训练，并轻松集成新的模态，类似于添加新语言。
3. 🎭 实用性:通过生成模型，AnyGPT合成了首个大规模的任意多模态指令数据集，证明离散表示能够在语言模型中有效统一多种模态，实现任意多模态对话。

站长之家（ChinaZ.com）2月20日消息:近日，复旦大学、上海人工智能实验室等机构联合推出了一款名为AnyGPT的多模态大语言模型，该模型在处理语音、文本、图像和音乐等多种模态输入时，可以生成任何模态的输出。

AnyGPT采用离散表示技术，通过在各模态输入上进行离散标记，实现了多模态信息的统一处理。该模型无需对当前大语言模型结构或训练方法进行任何修改，仅通过数据层面的预处理即可实现对新模态的顺利集成，这类似于添加新语言的方式。

为了更好地训练AnyGPT，研究团队构建了一个多模态文本中心数据集，用于多模态对齐的预训练。通过生成模型，团队还成功合成了首个大规模的任意多模态指令数据集，其中包含108，000个多轮对话样本，涵盖了各种模态的巧妙交织，使模型能够处理任意多模态的输入和输出组合。

实验证明，AnyGPT在实现任意多模态对话的同时，在所有模态上的性能与专业模型相当，证明了离散表示在语言模型中能够有效而便捷地统一多种模态。

AnyGPT产品特色亮点

1. **多模态处理创新性**:

- AnyGPT采用离散表示技术，能够统一处理语音、文本、图像和音乐等多种模态输入，展现了在多模态处理领域的创新性。

2. **稳定训练与灵活集成**:

- 无需修改当前大语言模型结构或训练方法，AnyGPT通过数据层面的预处理实现了稳定训练，且能够轻松集成新的模态，类似于添加新语言的方式。

3. **数据集与模型合成**:

- 构建了多模态文本中心数据集，用于多模态对齐的预训练，提高了模型的学习效果。

- 通过生成模型成功合成了首个大规模的任意多模态指令数据集，其中包含108k个多轮对话样本，使模型能够处理任意组合的多模态输入和输出。

4. **架构不变的高效处理**:

- AnyGPT模型架构不需要改变，所有模态都被划分为离散的标记，使得模型能够高效进行多模态理解和生成，只需在数据预处理和后处理方面进行操作。

5. **多模态演示场景**:

- 提供了多个实际场景的演示，包括语音克隆、多模态指令转化、文本到图像、音乐生成等，展示了模型在不同应用场景中的灵活性和可用性。

AnyGPT的创新性、灵活性和实用性使其在多模态语言模型领域取得了显著的进展。该模型的离散表示技术为实现多模态信息的统一处理提供了一种新的思路，为未来语言模型的发展指明了方向。

产品入口：https://top.aibase.com/tool/any-gpt-

（举报）

相关推荐

关键词：

AI眼镜的痛，Meta也治不了

对于全球科技从业者而言，Meta Connect大会是一年一度的重要时刻。不少人早早守在电脑前，想知道扎克伯格此次会带来哪些前沿技术产品，更对会上即将亮相的新款AI眼镜充满关注。事实上，AI眼镜这类消费电子产品，在过去一年里已快速从“小众科技产品”走进大众视野，但看似火热的市场背后，AI眼镜当下的发展却陷入了明显瓶颈。此前，国内AI眼镜市场曾掀起“百镜大

AI眼镜 Meta Connect大会
荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

本文介绍了AI日报栏目，聚焦AI领域最新动态。快手推出Kwali视频助手，简化视频制作流程；字节跳动发布USO模型，解决图像生成中风格与主题的矛盾；微软推出Copilot Audio音频模式，提供个性化语音交互；Stability AI升级Stable Audio 2.5，支持高质量音频生成；阿联酋推出开源大模型K2 Think，拥有320亿参数；微信上线智能回复功能，提升公众号运营效率；OpenAI推出ChatGPT开发者模式，支持AI控制外部工具；字节跳动Seed团队发布AgentGym-RL框架，提升语言模型决策能力；月之暗面开源Checkpoint Engine中间件，优化LLM推理效率；B站开源IndexTTS-2.0文本转语音系统，支持情感与时长控制；Replit推出Agent 3编程助手，自主性提升10倍。

AI视频制作快手Kwali 多Agent框架
HTTP 402与微支付：一段沉睡三十年的代码，在AI时代觉醒

30年前HTTP 402协议因交易成本高、体验割裂和技术缺失而失败，如今AI时代带来消费原子化、决策流线化和主体去人化三大变革，使微支付成为可能。AI代理通过钱包身份、风控机制和无缝支付协议实现高频小额交易，重构互联网经济逻辑，让HTTP 402从理想变为AI经济的支付基石。

HTTP402 微支付 Roy
腾讯云李力：坚持同源同构，为企业打造更贴近Agent的AI原生云

9月17日，腾讯云在2025全球数字生态大会上宣布智算全面升级，推出“更贴近Agent的AI+Infra”解决方案，包括Agent+Runtime、云专家服务智能体Cloud Mate及全链路安全能力。腾讯云副总裁李力强调，“同源同构”是核心原则，确保产品服务一致性与全球化布局。方案旨在提升模型推理效率、工具集成灵活性和系统稳定性，助力AI从实验室走向生产级应用。腾讯云通过硬件多元支持、软件加速优化及智能运维服务，降低企业技术门槛，已服务国内90%大模型厂商及千行百业。

腾讯云智算升级 Agent
StarRocks Connect 2025 圆满落幕：AI Native 时代，数据分析未来已来

StarRocks Connect 2025峰会圆满落幕，聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家，分享StarRocks在复杂业务场景中的实践，探讨技术演进方向。从性能引擎到AI原生平台，StarRocks 4.0将支持多智能体协作框架，提升数据分析效率。多家企业展示应用案例，覆盖电商、金融、旅游等领域，验证了其高性能与成本优势。开源精神推动技术创新，共同探索数据智能的无限可能。

StarRocks 数据分析 AI
美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
易鑫入选“2025 AI Era企业创新大奖TOP55”，彰显AI驱动金融科技领先地位

2025年9月，新智元发布“2025AI+企业创新大奖TOP55”榜单。易鑫集团凭借AI技术创新与规模化落地成果，成为唯一上榜的汽车金融科技企业。该评选聚焦AI创新标杆，涵盖技术实力、商业化能力等维度。易鑫在智能审批、客户服务等六大场景深度应用AI，显著提升运营效率与风控精度，并推出行业首个Agentic大模型，推动全链路自动化。公司将持续加大AI研发，构建更高效安全的数字金融服务体系。

人工智能企业创新汽车金融科技
魅族StarV Snap AI拍照眼镜发布：售价1999 元起

今日下午魅族22新品发布会上，一款名为StarV Snap的AI拍摄眼镜成为全场焦点。这款突破传统智能眼镜形态的产品以39克超轻人因工学设计惊艳亮相，通过50项人体工程学优化实现重量均匀分散，彻底解决"丑、重、硌"的行业痛点，鼻梁、耳部无压迫感的设计支持全天候舒适佩戴。外观采用经典框型设计，磨砂质感镜框不仅时尚百搭适配多种脸型，更具备防指纹沾染特性，
iOS 26.1首个Beta版更新发布苹果AI支持更多语言

苹果发布iOS 26.1开发者预览版Beta更新，内部版本号23B5044l。主要更新包括：Apple Intelligence新增丹麦语、荷兰语、挪威语、葡萄牙语、瑞典语、土耳其语、繁体中文及越南语支持；AirPods实时翻译功能扩展至日语、韩语、意大利语和中文（含繁简）；电话应用数字键盘采用全新液态玻璃设计。此外，Apple Music支持滑动切换歌曲，照片、日历和Safari浏览器迎来视觉优化。iOS 26正式版已于9月16日推送，适配第二代iPhone SE及之后共25款机型，iPhone 17系列和iPhone Air出厂预装该系统。

iOS 26.1 Apple
目标安卓最强平板！荣耀MagicPad3 Pro全面对标iPad Pro、小米平板Ultra

荣耀MagicPad3+Pro平板即将发布，将搭载第五代骁龙8至尊版芯片，配备13.3英寸超高刷大屏，首发MagicOS 10系统，支持PC级交互能力。对标iPad Pro和小米平板Ultra，目标成为安卓阵营最强平板。预计售价约5000元，因旗舰芯片成本较高。作为参考，荣耀MagicPad 3售价2999元起。

荣耀MagicPad3 Pro 第五代骁龙8至尊版

今日大家都在搜的词：

热文

3 天
7天

AnyGPT:实现任意模态输入到任意模态输出

AI眼镜的痛，Meta也治不了

荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

HTTP 402与微支付：一段沉睡三十年的代码，在AI时代觉醒

腾讯云李力：坚持同源同构，为企业打造更贴近Agent的AI原生云

StarRocks Connect 2025 圆满落幕：AI Native 时代，数据分析未来已来

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

易鑫入选“2025 AI Era企业创新大奖TOP55”，彰显AI驱动金融科技领先地位

魅族StarV Snap AI拍照眼镜发布：售价1999 元起

iOS 26.1首个Beta版更新发布苹果AI支持更多语言

目标安卓最强平板！荣耀MagicPad3 Pro全面对标iPad Pro、小米平板Ultra

今日大家都在搜的词：

热文

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

雷军演讲主题《改变》官宣：聊玄戒芯片和小米汽车背后的故事

小米平板8系列搭载11.2英寸3.2K旗舰屏

iPhone17遭首批用户吐槽客服回应：建议新机带壳

realme真我GT8系列官宣10月发布

鸿蒙智行尚界H5小订破15万台：明晚上市

小米汽车：苹果授权Apple Music安卓版将陆续推送

AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-A

小米召回116887辆SU7电动汽车：将OTA升级消除安全隐患

雷军回应小米召回11.7万辆SU7：将为用户带来更多期待功能

iPhone17 Pro Max续航实测夺冠 iPhone Air表现不俗

小米发布REDMI 15R 5G手机：售价1099元起搭载6000mAh电池

鸿蒙智行秋季发布会定档9月23日：尚界H5、新问界M7来了

苹果 iPhone 17/Pro 系列今日发售多维度升级

京东：iPhone 17开卖4小时全国超3万人签收

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

站长商机