首页 > 业界 > 关键词  > 多模态最新资讯  > 正文

北大腾讯提出多模态对齐框架LanguageBind

2023-11-09 14:39 · 稿源:站长之家

要点:

1、北京大学与腾讯等机构研究者提出了多模态对齐框架LanguageBind,并在多个榜单中取得了优异表现。

2、多模态信息对齐面临挑战,需要将不同模态信息进行整合与对齐,而新框架通过语言作为中心通道实现了多模态信息的语义对齐。

3、研究团队构建了VIDAL-10M数据集,这是一个大规模、多模态数据对的数据集。

站长之家(ChinaZ.com)11月9日 消息:北大腾讯等提出了多模态对齐框架LanguageBind,这一新框架在多个榜单中获得卓越表现。在现代社会,信息传递和交流不再局限于单一模态,而是多模态的。由于信息交互的复杂性,如何让机器理解和处理多模态的数据成为人工智能领域的前沿问题。

当前主流的对齐技术通常会导致性能次优化,因此北大腾讯的研究团队提出了一种新的多模态对齐框架——LanguageBind,该框架利用语言作为不同模态信息对齐的纽带。在这个框架下,语言不再是附属于其他模态的标注或说明,而是成为了联合不同模态的中心通道。

image.png

项目地址:https://github.com/PKU-YuanGroup/LanguageBind

并通过将所有模态的信息映射到一个统一的语言导向的嵌入空间,实现了不同模态之间的语义对齐。该框架还构建了VIDAL-10M数据集,包含了视频 - 语言、红外 - 语言、深度 - 语言和音频 - 语言配对,以确保跨模态的信息是完整且一致的。在多模态信息处理领域,LanguageBind的提出为多模态预训练技术的发展奠定了坚实基础。

该框架摒弃了依赖图像作为主导模态的传统方法,而是直接利用语言模态作为不同模态之间的纽带。通过一系列优化的对比学习策略,LanguageBind实现了直接的跨模态语义对齐。这种方法避免了通过图像中介可能引入的信息损失,提高了多模态信息处理的准确性和效率。

此外,该研究团队构建了VIDAL-10M数据集,这是一个大规模、包含多模态数据对的数据集,涵盖了视频 - 语言、红外 - 语言、深度 - 语言和音频 - 语言等数据对。并经过了精心的质量筛选,确保了数据集的高品质和高完整性。这一举措为跨模态预训练领域提供了一个高质量的训练基础。对于多模态对齐框架LanguageBind的提出,有望为多模态学习领域带来重要的进展和突破。

举报

  • 相关推荐
  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • Billus AI高交会全球首发多模态大模型 以AI Agent重构创意产业文明进化路径

    2025年11月15日,Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版,依托自研生存式大模型与AI Agent技术,打破创意领域垂直局限,构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果,实现从平面图到施工图的全流程高效生成。同时,Billus AI同步打造“创意设计超级员工+产业链智能体”体系,探索生成式创意与供应链智能推荐的新商业路径,助力行业从“经验驱动”向“数据智能”跃迁。

  • 荣耀Magic 8系列上新,火山引擎助力“YOYO助理”多模态升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等年度旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,结合火山引擎与豆包大模型技术,支持联网问答、识图、修图、闲陪伴、口语练习、出行规划等场景,提供图文、语音、视频等多种输入输出形式,实现秒级响应与沉浸式交互体验,成为用户“口袋里的万能管家”。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • 语音、手势、触控、人脸等,思必驰多模态交互开启智能经济时代

    人类的交互通道有眼耳鼻舌口等器官,他们充当着外在世界信号的“接收器”,将范围内的信号接收并传递给“大脑”。在机器世界里,从过去鼠标键盘转变成当下的触控、语音、手势、视觉等,多模态人机交互技术正在彼此融合。目前智能语音具备兼顾老人、儿童以及地方方言的能力,语音与视觉,触屏,LCD反馈显示结合的交互体验,令交互门槛的不断降低。国内专业的对话式AI企业思必驰,结合全链路语音交互技术及自研计算机视觉技术推出多?

  • 支付安全再升级,瑞银信押注多模态技术

    支付业务作为所有金融服务的基础入口,安全性始终是其最关键的考量因素。从最基础的密码验证,到数字密钥、指纹识别、面部识别等支付验证技术,每一次支付安全背后都是越来越严峻的风险形势。在支付领域深耕十余年的瑞银信,对支付安全技术有着长期的探索积累,并在近期将目光投向了多模态技术。模态是指任何一种信息的来源,例如指纹、人脸、声纹、步态、虹膜、语音等都可以被称之为一种模态。而所谓多模态识别技术,则是指综合运

  • 多模态生物识别成趋势,指静脉识别优势显著!

    随着生物识别技术不断发展,在日常人们更容易感受到生物识别技术带来的便利,例如AI人脸识别破案、指纹手机解锁、刷指静脉过闸等,生物识别越来越频繁地出现在大众的视野。在当下众多生物识别方式中,指纹识别是我们最常见的识别方式之一,成本也相对较低,但是关于指纹识别存在的安全隐患频频出现在新闻之中。对于国内的技术工作者甚至是创新型企业,无疑是一种对更高安全识别技术挑战。近年人脸识别、虹膜识别、指静脉识别技术有

  • Turing OS 机器人操作系统大升级,多模态交互再增强

    今年7月的图灵机器人创新大会上,图灵机器人团队正式对外发布了Turing OS 1.5。图灵机器人曾在2015年发布首款人工智能级的机器人操作系统——Turing OS,是智能机器人专属的操作系统。半年后,伴随着升级版本的到来,团队一次连发几十款机器人应用,并全面加强Turing OS系统,开放图灵机器人平台新服务。经过紧张的调试与准备,10月13日,Turing OS 1.5测试版正式上线。据了解,除了之前会上特别介绍过的机器人应用、视觉能力及主?

  • 亚略特助力非洲首个多模态生物识别国家身份证中心落成

    2019 年 11 月 8 日,安哥拉司法和人权部国家身份与犯罪综合管理平台项目(以下简称“国家身份证中心”)举行落成仪式,这标志着非洲首个多模态生物识别国家身份证体系正式上线。安哥拉总统洛伦索出席剪彩仪式并对该项目给予高度评价,表示该中心将有效提高安哥拉公共服务水平,为经济社会良好稳定发展发挥重要作用。安哥拉国家身份证中心于 2018 年 6 月开始筹建,是安哥拉最高级别的身份证管理机构,具备数据处理、身份证制作等?

  • 眼神科技CTO:多模态统一身份认证的必要性

    国内知名人工智能及前沿科技领域新媒体量子位发起「量子位·视点」CEO/CTO系列分享活动,眼神科技CTO江武明受邀参加,并进行了主题为《多模态统一身份认证——数字化的入口和枢纽》直播分享,引发数千人观看...电子证照的顺利实施,离不开对电子化证照的管理和鉴权,眼神科技的核心技术解决方案——多模态统一身份认证平台可以做为电子证照推行过程中的一个中枢平台,为随时随地的数据获取和验证提供初始的身份确认及安全保障......

今日大家都在搜的词: