首页 > 业界 > 关键词  > 正文

中国 AI 研究提出全新多模态学习框架Meta-Transformer

2023-07-24 11:53 · 稿源:站长之家

站长之家(ChinaZ.com)7月24日 消息:传统的深度学习模型在处理不同数据形式时存在巨大的模态差异,需要进行大量的工作来构建一个能够处理各种输入形式的统一网络。不同数据模态之间存在显著差异,通常使用不同的网络拓扑来独立编码每种数据模态。然而,这需要耗费时间和精力。

为了解决这个问题,中国香港中文大学和上海 AI 实验室的研究人员提出了一种全新的多模态学习框架,称为 Meta-Transformer。Meta-Transformer 使用相同的参数集同时对十二种不同的模态进行编码,实现了更加集成的多模态学习方法。

image.png

Meta-Transformer 的框架包括三个组件:数据到序列标记的模态专家、跨模态提取表示的模态共享编码器,以及用于下游任务的任务特定头部。通过这种简单而有效的方法,Meta-Transformer 可以高效地训练任务特定和模态通用的表示。

研究人员在多个标准数据集上进行了大量的研究,结果表明 Meta-Transformer 在处理多模态数据方面表现出色,仅使用来自 LAION-2B 数据集的图片进行预训练就能在各种多模态学习任务中超越现有技术。

总之,Meta-Transformer 是一个独特的多模态学习框架,通过使用相同的参数集同时提取多个模态的表示,开辟了统一多模态学习的新方向。这一研究为统一各种模态的框架的发展提供了新的可能性。

举报

  • 相关推荐
  • Meta新品发布,技术路线与影目INMO“撞车”,中国智造先行优势凸显

    三星Galaxy S25系列专为学生群体打造,融合AI生产力、影像创作与性能释放。通过Galaxy AI实现智能笔记、实时翻译等功能提升学习效率;搭载多摄系统与AI影像引擎,支持复杂场景拍摄;配备骁龙8芯片和优化散热系统,兼顾游戏娱乐与续航表现。轻薄设计搭配多款配色,满足个性化需求,现可通过教育优惠活动实惠入手。

  • 亚马逊入局竞逐AR眼镜行业,Meta/谷歌/微美全息以“硬件+生态”双赛道策略领先

    亚马逊正加速布局AR眼镜市场,开发两款产品:面向物流司机的"Amelia"和面向消费者的"Jayhawk"。科技巨头纷纷入局,Meta、谷歌、苹果等均在研发相关产品。中国消费级AR眼镜市场2025年上半年增长显著,销量达26.2万台,同比增长73%。行业预计未来三年规模有望达千亿级别,AR眼镜正从"小众玩具"迈向"大众智能终端"。

  • 小度发布多模态智能摄像机,AI大模型重塑家庭看护体验

    小度科技推出首款多模态智能摄像机C800,搭载800万像素4K超清摄像头,支持AI大模型技术。该产品不仅能实现高清监控,还具备智能行为识别、语音交互等功能,可自定义看护提醒。结合视觉与语音交互,支持复杂语义查询和家庭设备联动,扩展智能家居应用场景。目前产品已全网发售,年底还将推出三摄版本,持续探索AI硬件创新。

  • 续科天下发布全新XUKE TECH产品体系,为AI时代构建可靠数据基石

    续科天下发布XUKE TECH完整AI数据处理系统,推出Base、Embed、Vault三款核心产品,解决企业AI化过程中的非结构化数据处理难题。该系统能统一处理多模态数据,通过向量化转换和安全存储管理,形成端到端解决方案,帮助企业将70%的数据预处理精力转向模型开发,显著缩短AI项目上线周期,已在金融、互联网等领域验证实效。

  • 推荐国内优势智驾:Momenta凭借飞轮大模型,带来极致流畅的驾驶体验

    Momenta作为国内智能驾驶领域的领先者,凭借其创新的飞轮大模型技术,实现了端到端的自动驾驶解决方案。该技术将感知与规划整合,有效解决长尾问题,提升系统可靠性和稳定性。其R6飞轮大模型采用强化学习,具备持续进化能力,适应复杂路况。Momenta与宝马、奥迪等全球主流车企深度合作,方案已成功应用于广汽丰田、东风日产等车型,并在欧洲、澳大利亚等市场落地,展现出强大的全球适应性和技术优势。选择Momenta,即选择了经过验证的可靠技术和持续升级的智能驾驶体验。

  • 苹果首款智能眼镜曝光:无显示屏 类似Meta、小米

    虽然苹果开发了配置非常强劲全面的Vision Pro,但苹果也没打算放弃更轻便的智能眼镜。 据名记马克古尔曼(Mark Gurman)最新报告,苹果将在未来12至16个月内推出智能眼镜。 这款产品没有显示屏,定位与Meta、小米等产品类似,配备摄像头、收音和播放,需要连接iPhone实现数据处理。 功能应该跟此前产品都类似,可以实现拍照、录像、听音乐等常规操作。 预计还能通过新版S

  • 既能读懂情绪,还能多模态交互!INDEMIND用空间智能重新定义陪伴机器人

    TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破,从传统2D感知升级为3D语义感知,赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合,让机器人精准构建三维地图,识别家居属性,实现主动避障与个性化服务。同时,结合低算力混合模型与情感交互功能,机器人可感知用户情绪、提供安全防护,并支持宠物看护等场景拓展,从“工具”升级为有温度的“家庭伙伴”,真正满足复杂家庭需求。

  • 魅族发布Flyme Auto 2车载系统:全新小窗模式 支持AI读心术

    今日下午,魅族召开发布会,正式推出Flyme Auto 2车载系统,全面升级AI交互体验。 据介绍,Flyme Auto 2车载系统设计美学再度升级,新增实况桌面3D质感、全场景一镜到底、Alive壁纸、自定义桌面插件等等视觉与交互功能。 该系统强化Aicy大卡片、全新小窗模式,提供了更轻量更高效的交互方式。

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

  • 腾讯云大数据TBDS重磅升级,助力金融行业构建Data+AI一体化数智新范式

    腾讯云在腾讯全球数字生态大会上宣布,其大数据平台TBDS面向AI时代完成重磅升级。此次升级聚焦“数据与AI一体化”,旨在为金融机构提供兼具数据工程与数据科学能力的综合平台,打破传统数据处理与智能应用间的壁垒。新TBDS通过多模湖仓平台、WeData数智开发治理平台及DataAgent数据智能即服务构成核心架构,实现数据存储、管理、开发、治理与运维全面智能化。平台支持多模数据统一汇聚、异构计算负载调度,并显著提升数据开发到模型上线的全链路效率。在金融场景中,新TBDS已应用于信贷自动审批等业务,帮助机构提质增效。未来,腾讯云TBDS将持续发挥专业化与智能化优势,助力金融行业加速数字化转型。

今日大家都在搜的词: