11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、可灵AIAPI对口型能力全面开放、虚拟试穿升级至V1.5模型北京快手科技有限公司近日宣布可灵AIAPI完成新一轮升级,主要在虚拟试穿和对口型功能上取得显著进展。Run:ai的软件能够�
浙大、腾讯优图、华中科技大学的团队,提出轻量化MobileMamba!既良好地平衡了效率与效果,推理速度远超现有基于Mamba的模型。轻量化模型研究的主阵地都在CNN和Transformer的设计。MobileMamba通过在不同FLOPs大小的模型上采用训练和测试策略,显著提升了性能和效率。
微软AzureAI团队宣布开源视觉模型——Florence-2。Florence-2是一个多功能视觉模型,可提供图像描述、目标检测、视觉定位、图像分割等。尤其是在微调后,Florence-2在公共基准测试中的性能与更大参数的专业模型相媲美。
【新智元导读】当前的视觉模型哪个更好?Meta团队最新一波研究来了。如何根据特定需求选择视觉模型?ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指标上如何相互比较?来自MABZUAI和Meta的研究人员发表的最新研究,在「非标准」指标上全面比较了常见的视觉模型。-CLIP模型具有较高的形状偏差,与其ImageNet精度相比,分类错误较少。
苹果公司的研究者通过自回归图像模型验证了视觉模型“参数越多性能越强”的规律,进一步证明随着容量或预训练数据量的增加,模型能不断提升性能。AIM能有效利用大量未经整理的图像数据,训练方法和稳定性与最近的大型语言模型类似。对未来图像模型性能提升和优化提供了新的研究方向和思路。
GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。虽然BakLLaVA在训练过程中使用了LLaVA的语料库,不允许商用,但BakLLaVA2则采用了更大的数据集和更新的架构,超越了当前的LLaVA方法,具备商用能力。
最近,在Pytorch发布会上,发布移动端Pytorch解决方案ExecuTorch,实现在移动端设备上大范围地部署AI工具,并推出最新版本Pytorch2.1,推理速度大幅提升。在刚刚召开的PyTorch大会上,PyTorch发布了一大波更新,把深度学习从业者们高兴坏了!正式推出ExecuTorch。下面是最新稳定版本和更新的列表。
Roboflow推理服务器是一个易于使用的、面向生产环境的推理服务器,支持多种流行的计算机视觉模型架构和微调后的模型部署。它可以在各种设备和环境上部署,无需机器学习的先验知识。它是一个部署和管理视觉AI模型非常方便的工具。
如果你只需要训练一个线性层,就能拿将纯视觉模型转变为具备语言理解能力的视觉语言模型,结果会怎样?有研究人员想到了这个办法。研究人员通过使用没有文本监督训练的现成视觉编码器来将文本映射到概念向量,以便直接比较单词和图像的表示。他们的简单方法在92%的测试中都取得了成功。
+++Meta+AI+Research+发布了+DINOv2+开源项目,这是一款用于计算机视觉任务的基础模型。DINOv2+在一个由+1.42+亿张图像构成的筛选数据集上进行了预训练,可用作图像分类、视频动作识别、语义分割和深度估计等多个任务的骨干模型。该项目站点托管了使用+DINOv2+的多个计算机视觉任务的交互式演示。