首页 > 关键词 > 多模态研究最新资讯
多模态研究

多模态研究

在2024世界人工智能大会上,上海岩芯数智携Yan1.2多模态大模型亮相,不仅可以让大模型在手机、电脑、甚至树莓派端无损运行可以让机器人准确理解用户的模糊指令和意图。研发团队展示了一款部署Yan1.2多模态大模型的智能机器人“小智”,它能够基于Yan1.2的语音和视觉处理能力,实时识别环境、准确理解用户的模糊指令和意图,并据此控制其机械躯体高效完成各类复杂任务。当有人问“小智,你现在看到了什么”或手捧书籍邀请“小智”一同看书时,它能够基于多模态能力进行学习和创作,精确描述环境和人物特征、学习书籍信息。...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅提供资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

与“多模态研究”的相关热搜词:

相关“多模态研究” 的资讯266篇

  • 岩芯数智展示机器人多模态能力

    在2024世界人工智能大会上,上海岩芯数智携Yan1.2多模态大模型亮相,不仅可以让大模型在手机、电脑、甚至树莓派端无损运行可以让机器人准确理解用户的模糊指令和意图。研发团队展示了一款部署Yan1.2多模态大模型的智能机器人“小智”,它能够基于Yan1.2的语音和视觉处理能力,实时识别环境、准确理解用户的模糊指令和意图,并据此控制其机械躯体高效完成各类复杂任务。当有人问“小智,你现在看到了什么”或手捧书籍邀请“小智”一同看书时,它能够基于多模态能力进行学习和创作,精确描述环境和人物特征、学习书籍信息。

  • 中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑

    没等到GPT-4o,商汤先把《Her》给发布出来了!就在刚刚,商汤直接在现场来了个炸裂的LiveShow,话不多说,直接看效果:不仅声音非常拟人还是实时、随时可以打断的那种!它宛如被安上了一对儿眼睛,可以做到精准无误的所见即所得。就连手绘的粗糙的简笔画,AI也能俏皮地跟人类做互动:一波LiveShow秀下来,引得观众掌声连连、“哇”声一片。思路已然清晰,技术不断进步,属于A

  • AI日报:百度文心4.0免费开放;AI lab开源超强多模态大模型;对标GPT-4o!商汤发布日日新5o

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、百度文心智能体平台免费开放文心4.0版本百度文心智能体平台最新推出的文心大模型4.0版本免费开放给公众使用,极大地扩展了平台的功能和应用范围。这一投资有望降低电影�

  • 马上消金引入防伪大模型,打造多模态生物核验与防伪平台

    全球知名权威科技刊物《麻省理工科技评论》最新发布报告显示,数字经济时代,以“Deepfake”为代表的深度换脸技术更加智能化和高度真实化。深度伪造技术被非法用于经济、政治、社会等领域,形成严重危害,深度伪造检测面临更大挑战。马上消费已将防伪大模型引入日常风控反欺诈管理流程中,呈现迭代周期短、拦截性能强、可解释性强等特性,大幅提升用户体验,实现了人机协同的金融防伪新应用模式。

  • 首个支持多模态交互的机器人平台方案!科大讯飞机器人超脑平台2.0发布

    快科技6月27日消息,科大讯飞在今天的讯飞星火V4.0发布会上,还揭晓了机器人超脑平台2.0项目,将以视听融合的多模感知交互和基于大模型的机器人大脑。通过软硬件一体的方式构建机器人新交互,将讯飞星火大模型进一步赋能机器人领域。据悉,讯飞机器人超脑平台解决了机器人在嘈杂环境下听、说、理解和思考的难题。借助这套系统,机器人不仅能实现语音识别、自然语�

  • 松鼠Ai引领教育科技新纪元,发布全新多模态智适应教育大模型

    在数字化浪潮的推动下,教育领域正经历着前所未有的变革。上海松鼠云上人工智能技术有限公司于上海盛大召开全新多模态智适应教育大模型发布会,再次引发了业界的广泛关注。我们有理由相信松鼠Ai将继续引领教育科技的新潮流和新方向。

  • Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

    OpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。但业界还缺少可以全面评估大模型视频推理能力的基准。综合实验结果可以看出,当前的多模态大模型在视频理解,尤其是长视频理解方向仍然有很长进步空间,一方面是要提升模型的多模态长上下文理解能力,Gemini1.5Pro最高支持百万长度的上下文窗口,这是其表现优异的依仗,另一方面也亟需构建相应的高质量长视频理解数据集,这方面当下仍处于空白。

  • 悦灵犀AI多模态重磅更新“视”不可挡

    北京2024年6月11日,悦享控股有限公司,一家以技术驱动的新一代移动互联网基础设施与平台服务提供商今天宣布,悦灵犀AI发布2.0多模态重磅更新,采用了更加先进复杂的算法和模型,拥有更强大的应用能力,以及更全面的人工智能新交互功能。这标志着悦灵犀AI在底层技术层面取得重大突破,在应用层面实现了质的飞跃,为用户带来前所未有的应用体验,以及更加丰富、多样和真实的生成效果。悦享控股致力于以"悦享"为核心的产业生态布局,巩固和强化核心竞争力,实现长期可持续的规模化发展。

  • 生数科技完成数亿元 Pre-A 轮融资 加速布局多模态大模型

    生数科技完成数亿元Pre-A轮融资,该轮融资由北京市人工智能产业投资基金、百度联合领投,中关村科学城公司等跟投,启明创投等数位老股东继续支持。生数科技已经获得来自蚂蚁集团、BV百度风投、卓源亚洲、锦秋基金、达泰资本、智谱AI等机构的投资。2022年提出了Diffusion与Transformer融合架构U-ViT,进一步开源了多模态扩散模型UniDiffuser,验证了大规模训练融合架构的可行性和效果。

  • 多模态模型再进化,已学会看图玩扑克、算“12点”

    在科技领域,多模态模型的决策能力一直是研究的热点。UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架,成功地提升了多模态大模型在决策任务上的表现。这项研究不仅为多模态模型的性能提升提供了新的思路,也为未来人工智能的发展开辟了新的可能性。

  • 多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键

    只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策!这种方法得到的模型,已经学会了看图玩扑克、算“12点”等任务,表现甚至超越了GPT-4v。这是来自UC伯克利等高校最新提出的微调方法,研究阵容也是相当豪华:图灵奖三巨头之一、Meta首席AI科学家、纽约大学教授LeCunUC伯克利大牛、ALOHA团队成员SergryLevineResNeXt一作、Sora基础技术DiT作者谢赛宁香港大学数据科学学院院长、UC伯克利教授马毅该方法名为RL4VLM,论文预印本已经上线,相关代码也已在GitHub中开源。从提示词上看,这项研究采取了如下的提示过程作为多模态模型的输入,并且给出了期望的输出形式:消融实验结果表明,如果这一过程中不采用思维链,则任务成功率会出现大幅下降。

  • 多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」

    最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个token预测生成有用的表征,从成功地生成多种模态的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。能够同时生成多种模态输出的多模态模型一般是通过某种形式的词汇扩展来实现的,即在预训练阶段或在后期微调阶段进行跨模态对齐。更多研究细节,可参考原论文。

  • Soul 基于多模态模型丰富社交形式,为用户带来多重感官交互的社交盛宴

    社交不仅仅局限于文字的简单传达包括视觉体验和听觉体验的全方位调动。文字、图片、视频、音频等多模态集合是线上社交的主流形式。在当今AIGC技术的迅猛发展下,Soul社交形式的不断迭代升级,可以吸引更多用户群体的目光,并成为用户们交流互动的首选平台。

  • ambientGPT:开源多模态MacOS基础模型操作界面 可调用GPT-4o API

    一款名为ambientGPT的开源项目备受关注。这款工具是一款多模态MacOS基础模型操作界面,可以调用GPT-4oAPI或者本地开源模型进行问答,并能直接访问屏幕内容不需要截图。该技术的推出,预示着未来在智能模型应用领域将会迎来更多创新和便利。

  • ​马斯克的xAI正努力实现Grok多模态化 将支持上传照片获得文本回复

    埃隆・马斯克的人工智能公司xAI正在努力为其Grok聊天机器人增加多模态输入功能。根据公开的开发者文件,埃隆·马斯克的人工智能公司xAI在向其Grok聊天机器人添加多模态输入方面取得了进展。值得注意的是,大型语言模型的基准测试经常受到批评,因为如果这些基准测试包含在它们的训练数据中,这些模型就可以在基准测试上表现良好。

  • Meta发布类GPT-4o多模态模型Chameleon

    Meta最近发布了一个名为Chameleon的多模态模型,它在多模态模型发展中设立了新的标杆。Chameleon是一个早期融合的基于token的混合模态模型家族,能够理解并生成任意顺序的图像和文本。Chameleon模型的发布,展示了Meta在多模态模型领域的重大进展,它不仅推动了多模态模型的发展,也为未来的研究和应用提供了新的可能性。

  • 国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座

    【新智元导读】杀疯了!一夜之间,全球最强端侧多模态模型再次刷新,仅用8B参数,击败了多模态巨无霸GeminiPro、GPT-4V。其OCR长难图识别刷新SOTA,图像编码速度暴涨150倍。我们也将持续回报社区,开源更多优秀模型、数据、infra工具等,将开源开放的星火播撒世界协作创新之苍穹。

  • 智谱开源新一代多模态大模型CogVLM2

    智谱·AI最近宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。CogVLM2在OCRbench基准上性能提升了32%,在TextVQA基准上性能提升了21.9%,显示出强大的文档图像理解能力。CogVLM2的两个模型在多个基准中取得了最先进的性能,同时在其他性能上也能达到与闭源模型相近的水平。

  • 面壁智能推出最新一代端侧多模态模型 MiniCPM-Llama3-V2.5

    面壁智能推出了最新一代端侧多模态模型MiniCPM-Llama3-V2.5,这款模型具有超强的综合性能,能够超越GeminiPro和GPT-4V等多模态巨无霸。MiniCPM-Llama3-V2.5在OCR方面取得了SOTA的成绩,能够精准识别难图、长图和长文本。MiniCPM-Llama3-V2.5展现出了强大的多模态综合能力,为端侧AI模型的发展带来了新的突破。

  • GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

    【新智元导读】OpenAI半小时的发布会让很多人第一反应是直呼「失望」,但随着官网放出更多demo以及更多网友开始试用,大家才发现GPT-4o真的不可小觑,不仅在各种基准测试中稳拿第一有很多发布会从未提及的惊艳功能。OpenAI在发布会上官宣GPT-4o之后,各路大神也开始了对这个新模型的测评,结果就是,GPT-4o在多项基准测试上都展现了SOTA的实力。随着大模型之战愈演愈烈,相信对于开源和闭源的激烈讨论依旧会持续下去。

  • Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA

    【新智元导读】GPT-4o发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta团队发布了「混合模态」Chameleon,可以在单一神经网络无缝处理文本和图像。10万亿token训练的34B参数模型性能接近GPT-4V,刷新SOTA。*表示共同一作,†表示关键贡献者,‡表示工作流程负责人,♯表示项目负责人。

  • 多模态GPT-4o来了,最先嗨起来的是一波女性用户

    整场发布会最为重磅的发布之一,莫过于OpenAI团队成员对于新模型语音能力的演示,搭载了GPT-4o的ChatGPT,不仅真正实现了实时响应,可以任意打断,更重要的是,ChatGPT第一次拥有了“察言观色”的能力,它能看到用户表情,理解用户语气中的情感变化,同时能够给出不同风格、情绪的回应。更新后的ChatGPT不论是从响应速度上是其他方面,变得更像人了。长期观察用户行为,�

  • MiniMax推出人生搭子「海螺 AI」 已接入自研多模态大模型

    MiniMax公司推出了一款人生搭子产品,名为「海螺AI」,也可以称为「小海螺」。这款产品可以帮助学生、职场新人、自由工作者、创作者等各类人群,作为一个外挂大脑和人生搭子,帮助化解信息过载和高速运转带来的压力。小海螺会24*7在线解决用户工作和生活中的问题,同时也希望能陪伴用户在人生的不同阶段。

  • 新一代多模态内容生成模型Lumina-T2X 生成质量更高,成本更低

    Lumina-T2X是一个创新的内容生成系列模型,它采用了统一的DiT架构,能够通过文本生成图像、视频、多视角3D对象以及音频剪辑。这一新系列模型在大幅提高生成质量的同时,显著降低了训练成本,展示了AI技术在内容创作领域的最新进展。随着技术的不断进步,我们可以预见,未来AI将在内容创作、媒体制作、游戏开发等多个领域发挥更大的作用。

  • 斯坦福团队发布全球首个超小型多模态AI代理模型Octopus V3,函数调用准确度媲美GPT-4

    斯坦福大学的NEXAAI团队宣布推出全球首个多模态AI代理模型OctopusV3,让AI代理更加智能、快速、能耗及成本降低。今年四月份初,NEXAAI推出了备受瞩目的OctopusV2,该模型在函数调用性能上超越了GPT-4,减少了95%的推理时所需的文本量,为端侧AI应用带来了新的可能性。NEXAAI的创始团队表示,他们将继续致力于推动端侧AI技术的发展,通过开源模型提升其创新技术的影响力,为用户创造更智能、高效的未来生活。

  • VILA:能理解视频的多模态模型,支持笔记本部署训练

    VILA是英伟达发布的模型,使用大规模的交织图像文本数据进行预训练,为视频理解和多图像理解提供了新的能力,涵盖3.5B到40B多个大小的模型。最近发布的VILA-1.5版本具备视频理解功能,并提供了四种模型规模选择,为用户提供更多灵活性。通过Token压缩技术,VILA能够扩展视频帧数量,提高了模型的性能和应用范围。

  • 写真视频击败Sora?人大自研全新多模态大模型Awaker 1.0震撼登场

    在人工智能领域,人大系初创公司智子引擎近日发布了一款名为Awaker1.0的全新多模态大模型,标志着向通用人工智能迈出了重要一步。该模型在写真视频效果上超越了Sora,展现了其在视觉生成方面的卓越能力。Awaker1.0在理解侧和生成侧都实现了效果突破,有望加速多模态大模型行业的发展,最终让人类实现AGI。

  • 开源多模态LLM InternVL 1.5:具备OCR能力 可解读4K图片

    InternVL家族的开源套件提供了一种商用多模态模型的可行开源替代方案。最新发布的InternVL-Chat-V1.5模型在多个基准测试上取得了接近GPT-4V和GeminiPro的性能,这使得InternVL家族成为了当前最接近GPT-4V表现的可商用开源模型之一。InternVL家族的开源套件为多模态模型领域的发展注入了新的活力。

  • 元象开源首个多模态大模型XVERSE-V 支持任意宽高比图像输入

    元象公司发布了首个多模态大型模型XVERSE-V,并将其开源。这一模型支持任意宽高比的图像输入,并在多个权威评测中取得了优异的成绩。除了图像识别,XVERSE-V还在多个实际应用场景中表现突出,包括信息图理解、视障场景处理、文本生成、教育解题等。

  • 比Gemini Pro1.5强!可解读视频的多模态模型​Pegasus-1公测

    TwelveLabs最新发布了Pegasus-1的公测版本,这款视频-语言基础模型在视频理解领域取得了新突破。Pegasus-1是一款具有约17亿参数的视频-语言模型,能够以卓越的准确性和细节处理能力从视频输入中生成语言描述。Pegasus-1的不断进化与创新,为视频理解技术开辟新的可能性。

热文

  • 3 天
  • 7天