11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。上海AILab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD模型让这成为了现实。IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平,研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现�
RekaCore是一款最新发布的多模态大型语言模型,其性能可与GPT-4相媲美,甚至在某些方面超越了现有的前沿模型。这一技术突破为人工智能领域带来了新的里程碑,特别是在图像、视频和音频的上下文理解能力方面。随着Core的进一步优化和应用,我们有理由相信,它将在多个领域产生深远的影响,推动人工智能技术的进步和社会的发展。
MetaAI近日推出了一种名为MA-LMM的新型模型,旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力,但在处理视频输入方面存在一些限制,例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果,证明了其在多模态视频理解应用中的有效性和多功能性。
生数科技「多模态大模型」正式通过国家《生成式人工智能服务管理暂行办法》备案。成立于2023年3月,生数科技是一家全球领先的自主研发多模态通用大模型的人工智能企业,布局MaaS与应用级产品,面向艺术设计、游戏制作、影视动画、社交娱乐等领域提供赋能。生数科技将继续深化在通用多模态大模型方向的探索,致力于用AI提升每个人的创造力和生产力。
3月11日,DeepSeek-AI开源了全新多模态大模型DeepSeek-VL系列,分为1.3b和7b两种规模,共有4个版本。它具有融合语言和视觉能力,可以在不损失语言理解能力的情况下处理多模态任务,识别高分辨率图像中的细小物体。成立于2023年,专注于研究世界领先的通用人工智能底层模型与技术,挑战人工智能前沿性难题。
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
华中科技大学等机构发布了一项关于多模态大模型的全面评估新基准,旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型,包括谷歌Gemini、OpenAIGPT-4V等,覆盖了五大任务、27个数据集。这项研究不仅为多模态大模型的性能评估提供了新的思路,也为相关领域的研究和应用奠定了更加扎实的基础。
InternLM-XComposer2是一款先进的视觉-语言模型,在自由组合文本和图像以及理解这两者之间的内容方面表现卓越。这款模型不仅超越了传统的视觉-语言理解能够巧妙地将多样化的输入,如概要、详尽的文本描述和参考图片,融合成包含文本和图像的复合内容,实现高度定制化的创作。这使得InternLM-XComposer2成为当前领先的视觉-语言模型之一,为多领域的创作和理解任务提供了卓越
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
通义千问的图像推理能力,最近有了大幅提升。2024年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。随着多模态大模型技术的突破,我们将很快看到电商领域发生一场革命。
阿里云公布了多模态大模型的最新研究成果,继Plus版本之后,再次推出Max版本。Qwen-VL-Max模型在视觉推理方面展现出卓越的能力,可以理解并分析复杂的图片信息,包括识人、答题、创作和写代码等任务。用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力,也可以通过阿里云灵积平台调用模型API。
领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷!距离其首款开源大模型Yi-34B和Yi-6B的发布,仅间隔不到三个月的时间。模型名为YiVisionLanguage,现已正式面向全球开源。GPT-4V在该测试集上的准确率为43.7%,Yi-VL-34B以36.5%的准确率紧随其后,领先于当前最前沿的开源多模态模型。
GLM-4是由智谱AI在首届技术开放日上发布的一款新型大模型。GLM-4在性能上全面提升近60%,支持更长的上下文、更强的多模态支持和更快速的推理。要获取更多详细信息并开始使用GLM-4,请访问GLM-4网站查看更多介绍。
多模态大模型爆发,准备好进入图像编辑、自动驾驶和机器人技术等细粒度任务中实际应用了吗?目前大多数模型的能力还是局限于生成对整体图像或特定区域的文本描述,在像素级理解方面的能力相对有限。针对这个问题,一些工作开始探索借助多模态大模型来处理用户的分割指令。在三个benchmark的绝大多数指标上,PixelLM的性能均优于其他方法,且由于PixelLM不依赖于SAM,其TFLOPs远远低于同尺寸的模型。
啥?AI都能自己看电影大片了?贾佳亚团队最新研究成果,让大模型直接学会了处理超长视频。丢给它一部科幻大片《星际穿越》:它“看”完之后,不仅能结合电影情节和人物轻松对电影进行点评:还能很精准地回答出剧中所涉的细节:例如:虫洞的作用和创造者是谁?男主库珀是如何将黑洞中的信息传递给女儿墨菲?啊这,感觉电影博主的饭碗也要被AI抢走了。团队也提供了demo地址,可自己上传视频和LLaMA-VID对话。
Monkey是华中科技大学与金山软件联合推出的一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey可以基于现有视觉编辑器进行构建,无需从0预训练,大大提高了研发效率。Monkey将继续优化模型的感知、联想、推理和泛化能力,进一步提升其在各领域的应用价值。
谷歌推出多模态大模型Gemini1.0,具备处理文本、代码、音频、图像和视频等多种信息的能力,分为Ultra、Pro和Nano三种规模,性能超越领先模型,GeminiUltra在多任务语言理解中首次超越人类专家水平,计划明年初向开发者推出。苹果发布MLX模型框架苹果公司悄悄发布了MLX模型框架,表明可能加大在人工智能领域的投入,推动生成式人工智能应用程序的发展。与传统方法相比,FaceSt
Gemini是Google推出的最新一代AI模型,Gemini具有多模态的能力,可以处理和结合文本、代码、音频、图像和视频等不同类型的信息。Gemini分为三种规模:Ultra、Pro和Nano,分别针对不同的复杂任务和设备。GeminiUltra目前正在进行严格的安全检查,计划在明年初向开发者和企业客户推出。
哈尔滨工业大学近期发布了名为九天的多模态大语言模型,通过融合细粒度空间感知和高层语义视觉知识,取得了在13个视觉语言任务上的state-of-the-art性能,尤其在VisualSpatialReasoning任务上实现了5%的性能提升。论文链接:https://arxiv.org/abs/2311.11860GitHub:https://github.com/rshaojimmy/JiuTian项目主页:https://rshaojimmy.github.io/Projects/JiuTian-LION传统的多模态大语言模型在视觉信息提取上存在不足,导致了视觉定位偏差和幻觉等问题。九天为多模态大语言模型领域带来了新的思路和性能突破,为视觉语言任务的研究提供了有力的支持。
南洋理工华人团队提出的80亿参数多模态大模型OtterHD引起了人们的关注。与其他模型相比,OtterHD具有处理高分辨率图像的能力,并且具有通用性,能够应对各种推理需求。这些结果表明,OtterHD是一个非常有潜力的模型,在处理各种高分辨率图像和复杂场景中具有广泛应用的前景。
在昨日的电话会议上,快手首席执行官程一笑表示,今年初,快手启动了新的AI战略,并设定了战略目标,希望确保自己在可能到来的新技术突破中保持国内领先地位。快手研发的“快意”130亿和660亿大模型已达到了行业内同等规模的领先水平。这些产品的推出进一步推动了快手在AI技术领域的领先地位,并为创作者提供了更多元化的内容创作工具。
思谋科技在第六届中国国际进口博览会上发布了全球首个工业多模态大模型IndustryGPTV1.0。这个大模型通过深度的行业洞察和海量的精炼数据,能够准确回答制造业的问题、识别工业缺陷,并提供决策支持。思谋科技还与松下、江森自控等跨国企业签署了战略合作协议,将在智能制造、数智化创新等领域深度合作,共同推动全球工业制造进入智能时代。
面壁智能多模态大模型应用「面壁露卡Luca」正式面向公众开放服务。「面壁露卡Luca」于今年5月正式推出,是面壁智能基于其自研千亿参数基座模型CPM打造的多模态智能对话助手。面壁智能还与清华大学NLP实验室、OpenBMB开源社区合作,推动大模型技术在各行各业的落地。
Transformer一作AshishVaswani所在的AI公司Adept发布了多模态大模型Fuyu-8B。这一模型具有80亿参数,可理解各种图像类型,包括照片、图表、PDF和界面UI。这一创新团队的目标是利用大模型的能力来提升人机合作,使得人类能更高效地完成各种任务。
苹果AI/ML团队与哥伦比亚大学合作研发的多模态大模型“雪貂”已经成功突破了谷歌人机验证码的难题,能够轻松识别图像中的交通信号灯并准确圈出其位置,其性能直逼GPT-4V。Ferret的关键在于改进了大模型在“看说答”任务中的精确度,这得益于其出色的图文关联能力。通过这一研究,Ferret为解决图像理解和多模态任务提供了新的方向,有望在人机交互、智能搜索等领域取得
GPT-4的视觉能力还没全量放开测试,开源对手就隆重登场了。浙大竺院的一位校友,与微软研究院等机构合作推出了新版多模态模型LLaVA。来自微软研究院和哥伦比亚大学的学者也有参与LLaVA的相关工作。
“与历届亚运会相比,杭州亚运会很可能是最智能的一届。”是亚奥理事会代理总干事维诺德在接受媒体访问时的评价。期待这些黑科技产品逐渐渗透到普通用户的生活中,为我们的生活带来更多便利、效率和可持续性。
【新智元导读】GPT-4V风头正盛,LLaVA-1.5就来踢馆了!它不仅在11个基准测试上都实现了SOTA13B模型的训练,只用8个A100就可以在1天内完成。9月底,OpenAI宣布ChatGPT多模态能力解禁。他的研究方向是可控的多模态图像生成与处理,以及其他与创意视觉相关的问题。
OpenAI宣布ChatGPT用户现在可以浏览互联网,不再受限于2021年9月之前的数据。这一更新允许用户访问最新信息,拓展了ChatGPT的应用领域。该模型性能出色,免费下载无限制。
随着视觉与语言的深度融合,文本图像理解成为多模态领域的新方向。文章介绍了一个突破性的多模态模型KOSMOS-2.5,它在处理文本密集图像上展现强大能力。目标是进一步提升对文本图像的解释生成能力,将KOSMOS-2.5应用于更多实际场景,如文档处理、信息抽取等,从使语言模型真正具备「读图识文」的能力。