中国 AI 研究提出全新多模态学习框架Meta-Transformer

2023-07-24 11:53 · 稿源：站长之家

站长之家（ChinaZ.com）7月24日消息:传统的深度学习模型在处理不同数据形式时存在巨大的模态差异，需要进行大量的工作来构建一个能够处理各种输入形式的统一网络。不同数据模态之间存在显著差异，通常使用不同的网络拓扑来独立编码每种数据模态。然而，这需要耗费时间和精力。

为了解决这个问题，中国香港中文大学和上海 AI 实验室的研究人员提出了一种全新的多模态学习框架，称为 Meta-Transformer。Meta-Transformer 使用相同的参数集同时对十二种不同的模态进行编码，实现了更加集成的多模态学习方法。

Meta-Transformer 的框架包括三个组件:数据到序列标记的模态专家、跨模态提取表示的模态共享编码器，以及用于下游任务的任务特定头部。通过这种简单而有效的方法，Meta-Transformer 可以高效地训练任务特定和模态通用的表示。

研究人员在多个标准数据集上进行了大量的研究，结果表明 Meta-Transformer 在处理多模态数据方面表现出色，仅使用来自 LAION-2B 数据集的图片进行预训练就能在各种多模态学习任务中超越现有技术。

总之，Meta-Transformer 是一个独特的多模态学习框架，通过使用相同的参数集同时提取多个模态的表示，开辟了统一多模态学习的新方向。这一研究为统一各种模态的框架的发展提供了新的可能性。

（举报）

相关推荐

关键词：

Meta新品发布，技术路线与影目INMO“撞车”，中国智造先行优势凸显

三星Galaxy S25系列专为学生群体打造，融合AI生产力、影像创作与性能释放。通过Galaxy AI实现智能笔记、实时翻译等功能提升学习效率；搭载多摄系统与AI影像引擎，支持复杂场景拍摄；配备骁龙8芯片和优化散热系统，兼顾游戏娱乐与续航表现。轻薄设计搭配多款配色，满足个性化需求，现可通过教育优惠活动实惠入手。

Galaxy S25 AI生产力
亚马逊入局竞逐AR眼镜行业，Meta/谷歌/微美全息以“硬件+生态”双赛道策略领先

亚马逊正加速布局AR眼镜市场，开发两款产品：面向物流司机的"Amelia"和面向消费者的"Jayhawk"。科技巨头纷纷入局，Meta、谷歌、苹果等均在研发相关产品。中国消费级AR眼镜市场2025年上半年增长显著，销量达26.2万台，同比增长73%。行业预计未来三年规模有望达千亿级别，AR眼镜正从"小众玩具"迈向"大众智能终端"。

AR眼镜亚马逊科技巨头
小度发布多模态智能摄像机，AI大模型重塑家庭看护体验

小度科技推出首款多模态智能摄像机C800，搭载800万像素4K超清摄像头，支持AI大模型技术。该产品不仅能实现高清监控，还具备智能行为识别、语音交互等功能，可自定义看护提醒。结合视觉与语音交互，支持复杂语义查询和家庭设备联动，扩展智能家居应用场景。目前产品已全网发售，年底还将推出三摄版本，持续探索AI硬件创新。

AI大模型智能硬件小度科技
续科天下发布全新XUKE TECH产品体系，为AI时代构建可靠数据基石

续科天下发布XUKE TECH完整AI数据处理系统，推出Base、Embed、Vault三款核心产品，解决企业AI化过程中的非结构化数据处理难题。该系统能统一处理多模态数据，通过向量化转换和安全存储管理，形成端到端解决方案，帮助企业将70%的数据预处理精力转向模型开发，显著缩短AI项目上线周期，已在金融、互联网等领域验证实效。

AI数据预处理非结构化数据处理智能数据基础设施
推荐国内优势智驾：Momenta凭借飞轮大模型，带来极致流畅的驾驶体验

Momenta作为国内智能驾驶领域的领先者，凭借其创新的飞轮大模型技术，实现了端到端的自动驾驶解决方案。该技术将感知与规划整合，有效解决长尾问题，提升系统可靠性和稳定性。其R6飞轮大模型采用强化学习，具备持续进化能力，适应复杂路况。Momenta与宝马、奥迪等全球主流车企深度合作，方案已成功应用于广汽丰田、东风日产等车型，并在欧洲、澳大利亚等市场落地，展现出强大的全球适应性和技术优势。选择Momenta，即选择了经过验证的可靠技术和持续升级的智能驾驶体验。

智能驾驶系统技术实力 Momenta
苹果首款智能眼镜曝光：无显示屏类似Meta、小米

虽然苹果开发了配置非常强劲全面的Vision Pro，但苹果也没打算放弃更轻便的智能眼镜。据名记马克古尔曼（Mark Gurman）最新报告，苹果将在未来12至16个月内推出智能眼镜。这款产品没有显示屏，定位与Meta、小米等产品类似，配备摄像头、收音和播放，需要连接iPhone实现数据处理。功能应该跟此前产品都类似，可以实现拍照、录像、听音乐等常规操作。预计还能通过新版S

智能眼镜苹果新品 Vision
既能读懂情绪，还能多模态交互！INDEMIND用空间智能重新定义陪伴机器人

TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破，从传统2D感知升级为3D语义感知，赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合，让机器人精准构建三维地图，识别家居属性，实现主动避障与个性化服务。同时，结合低算力混合模型与情感交互功能，机器人可感知用户情绪、提供安全防护，并支持宠物看护等场景拓展，从“工具”升级为有温度的“家庭伙伴”，真正满足复杂家庭需求。

3D感知多模态交互陪伴机器人
魅族发布Flyme Auto 2车载系统：全新小窗模式支持AI读心术

今日下午，魅族召开发布会，正式推出Flyme Auto 2车载系统，全面升级AI交互体验。据介绍，Flyme Auto 2车载系统设计美学再度升级，新增实况桌面3D质感、全场景一镜到底、Alive壁纸、自定义桌面插件等等视觉与交互功能。该系统强化Aicy大卡片、全新小窗模式，提供了更轻量更高效的交互方式。

Flyme Auto 2
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云
腾讯云大数据TBDS重磅升级，助力金融行业构建Data+AI一体化数智新范式

腾讯云在腾讯全球数字生态大会上宣布，其大数据平台TBDS面向AI时代完成重磅升级。此次升级聚焦“数据与AI一体化”，旨在为金融机构提供兼具数据工程与数据科学能力的综合平台，打破传统数据处理与智能应用间的壁垒。新TBDS通过多模湖仓平台、WeData数智开发治理平台及DataAgent数据智能即服务构成核心架构，实现数据存储、管理、开发、治理与运维全面智能化。平台支持多模数据统一汇聚、异构计算负载调度，并显著提升数据开发到模型上线的全链路效率。在金融场景中，新TBDS已应用于信贷自动审批等业务，帮助机构提质增效。未来，腾讯云TBDS将持续发挥专业化与智能化优势，助力金融行业加速数字化转型。

腾讯云大数据平台 AI升级

今日大家都在搜的词：

热文

3 天
7天

中国 AI 研究提出全新多模态学习框架Meta-Transformer

Meta新品发布，技术路线与影目INMO“撞车”，中国智造先行优势凸显

亚马逊入局竞逐AR眼镜行业，Meta/谷歌/微美全息以“硬件+生态”双赛道策略领先

小度发布多模态智能摄像机，AI大模型重塑家庭看护体验

续科天下发布全新XUKE TECH产品体系，为AI时代构建可靠数据基石

推荐国内优势智驾：Momenta凭借飞轮大模型，带来极致流畅的驾驶体验

苹果首款智能眼镜曝光：无显示屏类似Meta、小米

既能读懂情绪，还能多模态交互！INDEMIND用空间智能重新定义陪伴机器人

魅族发布Flyme Auto 2车载系统：全新小窗模式支持AI读心术

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

腾讯云大数据TBDS重磅升级，助力金融行业构建Data+AI一体化数智新范式

今日大家都在搜的词：

热文

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

雷军：小米17 Pro Max很多门店已经缺货

iPhone调休闹钟上热搜苹果客服回应：需手动设置

雷军晒第100次健身打卡提前3个月完成健身目标

京东双11购物节官宣：10月9日晚8点开启

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

卢伟冰称小米17首销结果很不错并回应小米17为何最初无1TB

小米澎湃OS 3穿戴设备适配升级计划公布：10月开启推送

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

理想i6正式上市：首销直减1万限时售价23.98万元

AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问

小米17系列开售5分钟破25年国产手机首销纪录

雷军大方推荐友商产品：不买YU7 可以考虑Model Y和理想i6

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

雷军称没什么好犹豫的：50岁正是闯的年纪

小米非常非常缺人上热搜雷军谈小米成功秘诀

站长商机