11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
在当前科技发展的背景下,生成式AI技术在动物语言研究中崭露头角。文章介绍了地球物种项目推动的BEANS基准和AVES模型,通过海量数据,AI可能能够学习动物语言的内部表征,有望在未来揭示动物交流的真正含义。生成式AI技术为动物语言研究带来了全新的可能性,但其应用必须谨慎并伴随伦理的引导。
LLaVA项目通过扩展现有的LLaVA模型,成功地为Phi-3和Llama-3模型赋予了视觉能力。这一改进标志着AI在多模态交互领域的进一步发展。LLaVA的推出,预示着未来AI模型将更加智能和灵活,能够更好地服务于需要视觉与文本结合理解的复杂场景。
LaVi-Bridge是一种设计用于文本到图像生成任务的桥接模型,可以连接各种预训练的语言模型和生成视觉模型。通过利用LoRA和适配器,LaVi-Bridge提供了一种灵活的插拔式方法,无需修改原始语言和视觉模型的权重。如果您需要在文本到图像生成任务中使用更先进的语言模型或视觉模型,LaVi-Bridge将是您的理想选择。
LaVi-Bridge项目是一个无需训练将不同的语言模型和生成视觉模型结合起来,以实现文本到图像的生成的项目。LaVi-Bridge是一个灵活的框架,它允许将不同的预训练语言模型和生成视觉模型集成到文本到图像生成的过程中。在短提示、长提示和组合提示下的文本对齐和图像质量指标上进行了广泛的评估,并通过大量可视化实验验证了LaVi-Bridge的有效性。
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
一项开源项目MM-Interleaved引起了学者的广泛关注,该模型在多模态生成大模型方面取得了新的突破。项目引入了独创的特征同步器,刷新多项任务SOTA,拓展了多种图文生成及图像生成任务的应用领域,为多模态大模型的发展提供了新的活力。项目的问世不仅体现了其预训练阶段所展现的卓越性能,更在于微调后在各个具体下游任务上的全面表现,展现了MM-Interleaved框架成为一个无限创意的智能合作者,帮助用户轻松打造引人入胜的图文作品。
MoE-LLaVA是一种新型稀疏LVLM架构,通过使用路由算法仅激活top-k专家,解决了通常与多模态学习和模型稀疏性相关的性能下降问题。研究者联合提出了一种新颖的LVLM训练策略,名为MoE-Tuning,以解决大型视觉语言模型的扩大参数规模会增加训练和推理成本的问题。MoE-LLaVA能够帮助我们更好地理解稀疏模型在多模态学习上的行为,为未来研究和开发提供了有价值的见解。
微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。
Weaver是一个内容创作类大模型,具有生成长文本、个性化文风、引入外部知识等功能,可应用于小说、文案、论文等创作场景,帮助用户提高创作效率。点击前往Weaver体验入口需求人群适用于各类小说创作、文案写作、论文撰写。点击Weaver网站,开启您的内容创作之旅。
AdeptFuyu-Heavy是一种新型的多模态模型,专为数字代理设计。它是世界上第三大能力超强的多模态模型,仅次于GPT4-V和GeminiUltra。它还能够生成跨越文本和图像的内容,适用于多种应用场景。
WebLLM是一个模块化、可定制的JavaScript包,旨在直接将语言模型聊天引入到Web浏览器中。与其他工具不同,一切都在浏览器内部运行,无需服务器支持,同时通过WebGPU进行加速。如果您正在寻找一种在Web浏览器上实现智能聊天的方法,不妨尝试WebLLM。
UltrAvatar是一款逼真可动的3D头像生成模型,它采用先进的AI技术,可以生成高保真度、高质量的3D头像。UltrAvatar应用了ScoreDistillationSamplingloss和可微分渲染器以及文本条件来引导扩散模型生成头像。怎样使用UltrAvatar使用UltrAvatar生成3D头像非常简单方便:提供一张头像照片作为输入样本UltrAvatar会自动进行头像3D构建微调生成的参数,例如姿态、照明等输出高保真的3D头像可用于游戏、VR等场景中想深入了解UltrAvatar的使用方法,请访问其官网UltrAvatar。
悉尼科技大学的科研人员,通过大语言模型、EEG、脑机接口等技术,开发了一个可自动读取人类想法,并转化成文本的AI大模型——DeWave。DeWave的使用方法非常简单,用户只需要戴上EEG,然后开启你的思维活动,DeWave就能将你的想法直接翻译成文本,就像现实版的《读心人》非常“恐怖”。MEG主要应用:定位脑功能、研究大脑通信、诊断和治疗规划、研究神经发育和疾病等。
GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。虽然BakLLaVA在训练过程中使用了LLaVA的语料库,不允许商用,但BakLLaVA2则采用了更大的数据集和更新的架构,超越了当前的LLaVA方法,具备商用能力。
MetaAI最近开源了AVID,这是一项具有先进修复和扩展能力的T2V模型。AVID不仅支持通过文本编辑视频可以修复视频、更改视频对象、改变纹理和颜色,甚至删除视频内容或更换视频环境。在推理过程中,对于长度为$N^\prime$的视频,AVID模型会构建一系列片段,每个片段包含$N$个连续帧,并在每个去噪步骤中计算并汇总每个分段的结果。
在针对网络安全领域的生成AI领导者Nexusflow宣布推出NexusRaven-V2后,该公司日前发布了一个13亿参数的开源生成AI模型,该模型在处理软件工具方面超越了OpenAIGPT-4。NexusRaven-V2拥有强大的功能调用能力,能够理解人类指令并将其转化为精确的软件工具功能或API调用。这一举措对于推动开源模型在企业中的采用具有积极意义。
LaVie是一款先进的文本到视频生成框架,为用户提供了强大的视频生成工具。通过采用级联潜在扩散模型,LaVie能够生成高质量、逼真的视频内容。视频插值和超分辨率:LaVie不仅能生成单一场景的视频支持对多个视频进行插值,以及将生成的视频进行超分辨率处理,提升视频质量。
最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这些结果证明了联合图片和视频一起训练能够促进LLM理解视觉表示。
OpenAI数百名员工集体威胁辞职,指责董事会解职Altman处理不当,要求董事会辞职,或将跟随Altman加入微软。Runway正式发布运动画笔和Gen-2风格预设Runway近日发布了一系列新功能和更新,其中包括运动画笔、Gen-2风格预设、更新的相机控制以及图像模型的改进。模型在13个基准测试上表现出色,无需配对数据训练,且通过预先对齐视觉输入,提高了对视频问答任务的性能。
2023年11月1日,英国奢侈手机品牌VERTU在香港举办了新品发布会,推出全球首款双模型AI手机——METAVERTU2。VERTU在去年发布了全球首款Web3手机,今年又将Web3与AI相结合,通过AI模型标记数据,AIAgent处理任务的方式,将METAVERTU2打造成更懂你的PERSONALAI。METAVERTU2的发布不仅体现在其产品技术的精益求精,更展现在对奢侈品与手机行业的深入理解和不断赋予的新定义。
大型语言模型,如GPT-3、PaLM和OPT,以其卓越的性能和能够在上下文中学习的能力,令人叹为观止。它们在推断时的高成本是它们的显著缺点。这些有前途的实验结果突显了上下文稀疏性在显著减少推断延迟方面的潜力,相较于现有模型,这项研究使LLM更容易被更广泛的AI社区使用,可能开启令人兴奋的新的AI应用。
研究人员日前发布了一项名为"FAVOR"的创新技术,它能够在帧级别巧妙地融合音频和视觉细节,从增强大型语言模型对视频内容的理解能力。这一引入FAVOR方法的举措,为拓展大型语言模型在视频理解领域的潜力开辟了新的机遇。这些示例可以作为起点,帮助用户开始构建他们自己的多模态交互。
【新智元导读】GPT-4V风头正盛,LLaVA-1.5就来踢馆了!它不仅在11个基准测试上都实现了SOTA13B模型的训练,只用8个A100就可以在1天内完成。9月底,OpenAI宣布ChatGPT多模态能力解禁。他的研究方向是可控的多模态图像生成与处理,以及其他与创意视觉相关的问题。
9月20日,生数科技发布了自主研发的多模态通用大模型,并同时推出了两款应用产品:视觉创意设计平台PixWeaver和3D资产创建工具VoxCraft。生数科技的多模态通用大模型采用底层融合的思路,将Transformer架构引入扩散模型,实现文本、图像、3D、视频等多模态知识的融合。生数科技的大模型还面向游戏制作、影视制作、广告营销等多个行业提供服务能力,支持各类创意内容的生成。
韩国互联网巨头NAVER的子公司NAVERWEBTOONAI最近发布了一款名为DreamStyler的大型艺术绘画模型,可以通过文字或图像实现风格迁移。这一模型具有模仿著名艺术家如梵高、毕加索等的绘画风格的能力,能够将普通照片或图像转化为富有艺术感的作品。这一创新有望为数字艺术家和创作者提供更多的创作灵感和工具。
StabilityAI发布开源大语言模型StableBelugaStabilityAI发布开源大语言模型StableBeluga,并基于它开发StableChat聊天机器人,采用解释微调技术进行优化,允许用户通过网页界面使用并反馈,以改进模型性能。体验地址:https://research.stability.ai/chat美图推出AI数字人生成工具DreamAvatar美图公司旗下AI数字人生成工具DreamAvatar上线“AI演员”数字人服务,可将拍摄的真人视频素材中的人物替换成数
韩国平台巨头Naver计划在8月底推出超级AI平台HyperCLOVAX和聊天机器人CLOVAX,并将这些新兴技术应用于其主要服务中,以增强搜索、购物和在线支付等领域的用户体验。大规模语言模型HyperCLOVAX具有2040亿参数,超过了GPT-3的1750亿参数,并且比基于GPT-3.5的ChatGPT学习了6500倍的韩语。Naver还将推出生成式AI搜索服务Cue:,并计划将这些服务与现有的商业、创意和金融业务相结合。
【新智元导读】无视长宽比及分辨率!百变适用Transformer。今天要介绍的是NaViT,这是一种适用于任何长宽比以及分辨率的Transformer模型。因能力有限,本文翻译中若有错讹,深表歉意。
GoogleDeepMind推出了NaViT:一种新的ViT模型,它在训练过程中使用序列打包来处理任意分辨率和宽高比的输入。该模型将图像分割成小块,并线性投影到令牌上,形成了这个模型的基础。NaViT在广泛的解决方案范围内都表现出色,为推理时间提供了平滑的性能-成本平衡,并且易于适应新任务无需花费大量资金。
瑞士苏黎世联邦理工学院和微软的研究人员提出了X-Avatar,这是一个能够捕捉人体姿势和面部表情的可动态的隐式人体模型。X-Avatar是一个由ETHZurich和微软研究人员开发的表现力丰富的隐式人体模型,能够捕捉高保真度的人体和手部动作、面部情感和其他外貌特征。由于X-Avatar可以准确地记录人体姿势、手势、面部情感和外貌,因此可以创建更具表现力和逼真的虚拟角色。