首页 > 业界 > 关键词  > 正文

微软创新项目Project Rumi:多模态AI项目助力理解人类意图

2023-08-07 09:40 · 稿源:站长之家

站长之家(ChinaZ.com)8月7日 消息:Project Rumi 是微软的一个项目,旨在通过解决大型语言模型(LLM)理解非语言线索和上下文细微差别的局限性,增强 LLM 的能力。

该项目将非语言线索融入基于提示的 LLM 交互中,以提高交流的质量。研究人员使用音频和视频模型从数据流中检测实时的非语言线索。使用两个独立的模型分别从用户音频中提取声调和语音的语义信息。研究人员使用视觉转换器对视频进行编码,并从中识别面部表情。下游服务将非语言线索信息融入基于文本的提示中。这种多模态方法旨在增强用户情感和意图的理解,从而将人工智能与人类的互动提升到一个新的水平。

image.png

论文地址:https://www.microsoft.com/en-us/research/project/project-rumi/

未来,研究人员计划改进模型的效率,并添加更多细节,如从标准视频中获取的心率变异性(HRV)和认知和环境感知。这是在下一波与人工智能的交互中增加无言意义和意图的更大努力的一部分。

要点:

1. Project Rumi 旨在通过增加语言模型对非语言线索和语境细微差别的理解能力,提升大型语言模型的能力。

2. 该项目采用多模态方法,通过音频和视频模型检测实时的非语言线索,以提高与语言模型的交互质量。

3. 未来的研究计划包括进一步改进模型,并添加心率变异性和环境感知等更多细节,以实现与人工智能的更深层次的交互。

举报

  • 相关推荐
  • AI创企Reka发布多模态AI助手Yasa-1,欲与ChatGPT竞争

    由DeepMind、Google、百度和Meta的研究人员共同创立的AI创企Reka,最近宣布了最新产品一款多模态AI助手Yasa-1。这款助手被设计成可以理解和互动文本、图像、视频和音频等多种媒体形式,被认为有望成为OpenAI的ChatGPT的竞争对手。Yasa-1的发布标志着多模态AI助手领域的竞争愈发激烈,预示着未来AI助手将在不同媒体类型之间进行更多复杂的交互,为用户提供更多有趣和实用的功能。

  • OpenAI多模态AI系统GPT-Vision即将推出 与谷歌Gemini竞争

    据TheInformation报道,知情人士透露,鉴于谷歌上周开始向部分企业测试其多模态大模型Gemini,OpenAI希望抢占先机,推出自己的多模态AI系统。OpenAI在3月份推出语言模型GPT-4时曾预览了多模态功能,但至今仅向为盲人提供服务的BeMyEyes公司开放。AI领域两大巨头互相竞争有利于行业技术进步,消费者也将从中受益。

  • 多模态大模型MMICL霸榜 支持文本像视频输入

    北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。随着其性能和适用场景的不断优化,MMICL有望成为多模态领域的新宠。

  • ChatGPT推出语音和多模态功能 预计未来两周内上线

    OpenAI宣布将在ChatGPT中推出新的语音和图像功能。这些功能可以通过语音对话或展示图片的方式与ChatGPT进行交互。语音功能将在iOS和Android平台上使用图像功能将在所有平台上提供。

  • 重磅!OpenAI将发布DALL·E 3,多模态ChatGPT来了!

    9月21日凌晨,OpenAI在官网宣布,在今年10月份将通过API向ChatGPTPlus和企业版用户提供全新文本生成图片产品——DALL·E3。ChatGPT在DALL·E3加持下将开启久违的多模态输出模式,用户通过文本就能直接在ChatGPT中生成各种类型图片。从展示可以看出,DALL·E3可以生成写实、二次元、平面、创意、朋克、3D等多种类型的图片。

  • AI视野:多模态ChatGPT即将上线;抖音“AI美式证件照”走红;百度发布交通大模型“ACE3.0”

    OpenAI在美东时间9月25日宣布对ChatGPT进行重磅升级,实现了看图、听声音、输出语音内容的三大功能,为通用人工智能迈出重要一步。DeepMind研究:LLMs在图像和音频压缩方面出色表现Google旗下的DeepMind研究人员发现,大型语言模型除了在文本领域表现出色在图像和音频数据的压缩方面具备出色能力,超越了专用的压缩算�

  • 多模态大模型KOSMOS-2.5 擅长处理文本密集

    随着视觉与语言的深度融合,文本图像理解成为多模态领域的新方向。文章介绍了一个突破性的多模态模型KOSMOS-2.5,它在处理文本密集图像上展现强大能力。目标是进一步提升对文本图像的解释生成能力,将KOSMOS-2.5应用于更多实际场景,如文档处理、信息抽取等,从使语言模型真正具备「读图识文」的能力。

  • 实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了

    继各类输入端多模态大语言模型之后,新加坡国立大学华人团队近期开源一种支持任意模态输入和任意模态输出的真正「大一统」多模态大模型,火爆AI社区。ChatGPT的诞生,引爆了2023年的基于大语言模型的AI浪潮,此后各类开源大语言模型陆续问世,包括Flan-T5、Vicuna、LLaMA、Alpaca等。后续研究可以进一步提升模态切换指令微调学习策略以及数据集。

  • GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!

    多模态大模型的战场上,已有人闻到风声。OpenAI的全新多模态模型Gobi似乎已在筹备中。顺便提一句,OpenAI即将在11月召开的首届开发者大会,已经开始注册了,快上手申请吧。

  • 生数科技发布自研多模态通用大模型 同时推出PixWeaver、VoxCraft等工具

    9月20日,生数科技发布了自主研发的多模态通用大模型,并同时推出了两款应用产品:视觉创意设计平台PixWeaver和3D资产创建工具VoxCraft。生数科技的多模态通用大模型采用底层融合的思路,将Transformer架构引入扩散模型,实现文本、图像、3D、视频等多模态知识的融合。生数科技的大模型还面向游戏制作、影视制作、广告营销等多个行业提供服务能力,支持各类创意内容的生成。