11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
微软AzureAI团队宣布开源视觉模型——Florence-2。Florence-2是一个多功能视觉模型,可提供图像描述、目标检测、视觉定位、图像分割等。尤其是在微调后,Florence-2在公共基准测试中的性能与更大参数的专业模型相媲美。
一站式金融科技服务商天冕科技对外宣布由创新研究中心团队研发的“目标物识别方法、装置、电子设备及可读存储介质”获国家知识产权局颁发发明专利证书。该专利通过引入图像分割技术和深度学习算法,可以有效完成对图片中人体裸露程度的判断,极大地提升了信贷行业的审核效率与准确性。随着技术的不断进步,我们期待看到更多类似的技术应用于金融行业,推动整个行业的数字化转型。
MimicBrush是阿里巴巴推出的一款创新的图片编辑项目,它通过先进的AI技术,能够将一张图片的某一部分融合到另一张图片上。这项技术在电商商品展示、图片编辑和内容迁移等多个领域具有广泛的应用潜力。随着技术的不断发展,MimicBrush有望为图像编辑技术的进步带来新的思路和方向。
OpenAI发布了GPT-4-Turbo正式版,这是一个带有视觉能力的模型,能够处理128k的上下文。这个模型现在已经全面开放,可以通过“gpt-4-turbo”来使用,最新版本为“gpt-4-turbo-2024-04-09”。GPT-4-Turbo是一个功能强大的模型,它的发布将为AI领域带来新的可能。
还记得DragGAN吗?这是一种可以拖动锚点进行图像编辑的技术,但当时代码发布后,由于生成速度慢,且不能自定义外部图片,逐渐被人们淡忘。一种新的技术StableDrag出现了,它是基于Diffusion模型的,也能完成类似的拖动锚点编辑图片的功能。通过在DragBench上进行广泛的定性实验和定量评估,证明了这两种模型能够实现更稳定的拖动性能。
苹果开源了一种新的技术,名为多模态大语言模型引导的编辑,这项技术能够帮助用户通过自然语言指令来修改图片,使得编辑图片更加简单和自然。MGIE采用多模态大型语言模型进行图像编辑指令的生成,通过端到端训练,模型不仅捕捉视觉想象力执行图像处理操作。在实现更加直观和自由的图像编辑过程中,这一方法有望为未来的计算机视觉和图像处理研究提供新的思路。
AIGC时代,人人都可以使用Midjourney、StableDiffusion等AI产品生成高质量图片,其逼真程度肉眼难以区分真假。这种虚假照片有时会对社会产生不良影响,例如,生成公众人物不雅图片用于散播谣言;合成虚假图片用于金融欺诈,造成信任危机等。华为团队认为,该领域未来值得努力的方向是不断提升检测器在GenImage数据集上的准确率,并进提升其在真实世界面对虚假信息的能力。
由全球图像管理和技术图像软件公司ACDSeeSystems开发的专业数字资产管理工具ACDSee2024现已发布。此次一共发布了ACDSee2024旗舰版、ACDSee2024专业版和ACDSee2024家庭版共三个版本的软件。ACDSee2024系列已正式上线,从事图片管理、编辑等相关工作的朋友们可以前往ACDSee官网下载使用,让复杂的工作变简单,提高工作效率。
阿里推出了一项名为AnimateAnyone的研究,该研究通过引入扩散模型,克服当前图像到视频合成中的一些挑战,特别是在角色动画领域。论文提出了一种全新的框架,通过巧妙设计的ReferenceNet、姿势引导器和时间建模方法,解决了维持细节一致性和运动连贯性的问题。带来的技术突破和实证结果表明,这一方法在角色动画领域具有巨大的潜力,为数字媒体和创意产业注入了新的活�
微软正式在Windows11的Paint应用中推出了Cocreator图像生成AI功能。这一集成的文本转图生成器由OpenAI的DALL-E3模型驱动,之前仅限WindowsInsider用户使用。微软已将Copilot推广到无数产品,从Windows10到Microsoft365服务。