11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
7月4日,腾讯宣布混元文生图打标模型“混元Captioner”正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作高质量的文生图数据集。在众多开发者的支持下,混元DiT发布不到2个月,GithubStar数已经超过2.6k,成为最受欢迎的国产DiT开源模型。
腾讯混元发布了针对开源文生图大模型混元DiT的加速库,可将推理时间缩短75%,生图时间大幅缩短。混元DiT模型也已部署至HuggingFaceDiffusers通用模型库,用户可通过三行代码调用模型,无需下载原始代码。腾讯混元表示将继续优化混元DiT的开源生态,共建视觉生成开源生态,推动大模型行业发展。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、ChatGPTEdu版本来啦:支持GPT-4o、自定义GPT、数据分析ChatGPTEdu版本推出,为大学校园提供多功能ChatGPT,助力学生、老师提升学习质量和教学效率。技术创新点在于采用高斯点云生�
快手自研的文生图大模型“可图”正式对外开放,为用户带来了全新的AI图像创作体验。这款大模型不仅支持文生图和图生图两类功能,可用于AI创作图像以及AI形象定制。5月15日,有关部门公布了人工智能备案新进展,19家企业新增备案,其中包括了北京快手科技有限公司“可图”等。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、谷歌急了,终极杀器对打GPT-4o视频模型Veo硬刚Sora谷歌近日发布了一系列强大的AI工具,包括ProjectAstra、Veo视频模型和Gemini1.5Pro,旨在彻底颠覆谷歌搜索并挑战OpenAI。这一举措在�
腾讯旗下引人注目的混元文生图大模型宣布全面开源,这一重要举措标志着人工智能领域的又一里程碑。该模型已在HuggingFace和Github平台上发布,包含完整的模型权重、推理代码和算法,面向全球的企业与个人开发者免费开放商用。我们期待这一技术的进一步发展和应用,为人工智能领域带来更多的惊喜和突破。
近期,抖音的Flow部门成功推出了一款名为“星绘”的APP,它是一款AI相机类的产品,为用户带来了全新的视觉体验。星绘APP不仅可以创建用户的AI分身能提供多样化的分身效果定制。虽然经过多次测试后,发现星绘对部分文字的意思理解仍待提高,但这一功能仍然为用户提供了更多的创作可能性。
StableDiffusion3API是一款先进的文本到图像生成系统,它在排版和提示遵循方面与DALL-E3和Midjourneyv6等顶尖系统相匹敌或更优。该系统采用新的多模态扩散变换器架构,使用不同的权重集来改善图像和语言的表示,从提高文本理解和拼写能力。StableDiffusion3API的使用场景示例在以下情况下,您可以使用StableDiffusion3API进行图像生成:生成广告宣传图创建游戏角色概念图辅助教学材料的图像制作产品特色和功能StableDiffusion3API具有以下特色和功能:文本到图像的生成多模态扩散变换器架构图像和语言的独立表示文本理解和拼写能力提升想要了解更多关于StableDiffusion3API的信息并开始您的图像生成之旅,请访问StableDiffusion3API官方网站。
PixArt-sigma由华为诺亚方舟实验室联合多个研究机构共同开发的项目,是一个强大的文本到图像生成模型,通过弥散Transformer进行弱到强训练,旨在实现4K分辨率的图像生成。PixArt-sigma采用了弥散Transformer进行弱到强训练,从能够更好地生成高质量的4K分辨率图像。在应用方面,PixArt-Σ是一款强大的文本到图像生成工具,具有广泛的应用场景,可以满足艺术、设计、游戏开发、营销
Hugging和英特尔发布了提高文生图模型空间一致性的方案,大幅提高了模型对提示词中空间关系的理解能力。在当前的将文字描述转换为图像的技术中,一个关键短板是它们往往无法精准地生成与文字提示中所描述的空间关系相符的图像。他们还会开源这个模型和数据集,以便其他研究者和开发者能够利用这些资源来进一步提高文生图模型的性能。
LoRA的高效能力已在文生图领域获得广泛应用,可以准确渲染、融合图像中的特定元素,例如,不同字符、特殊服装或样式背景等,同时可对图像进行压缩、去噪、补全进行优化操作。但想在模型中应用多个LoRA构建更复杂的图像时,会出现图像失真、难以控制细节的难题。尤其是使用数量较多的LoRA组合时,生成高质量的效果更加明显。
LaVi-Bridge项目是一个无需训练将不同的语言模型和生成视觉模型结合起来,以实现文本到图像的生成的项目。LaVi-Bridge是一个灵活的框架,它允许将不同的预训练语言模型和生成视觉模型集成到文本到图像生成的过程中。在短提示、长提示和组合提示下的文本对齐和图像质量指标上进行了广泛的评估,并通过大量可视化实验验证了LaVi-Bridge的有效性。
开发顶级的文生图模型需要大量资源,因此资源有限的个人研究者基本都不可能承担得起,这也成为了AIGC社区创新的一大阻碍。同时随着时间的推移,AIGC社区又能获得持续更新的、更高质量的数据集和更先进的算法。
AI生成式图像创业公司Ideogram最近又成功融资8000万美元,吸引了包括JeffDean和Karpathy在内的硅谷大佬及知名机构的投资。Ideogram凭借其卓越的文字渲染能力取得了重大突破。Ideogram由前GoogleBrain研究人员创立,其图像生成器在生成带有文本的图像方面具有独特优势——它可以以不同的字体、大小、颜色、样式可靠地呈现图像中的字母、词汇和标志这一点一直是其他AI图像生成器需要
Playground最新发布的v2.5版本旨在提升图像的美学质量,特别强调颜色和对比度的增强,以及改进了多纵横比图像生成的能力,使其能够生成各种比例的图像并提升人像细节。产品入口:https://top.aibase.com/tool/playground-ai模型:https://huggingface.co/playgroundai/playground-v2.5-1024px-aestheticComfyUI即将支持:https://github.com/comfyanonymous官方声称,根据用户研究数据显示,v2.5在性能上明显超越了SDXL、PixArt-⍺、DALL·E3和Midjourneyv5.2。专注于改善人脸细节、眼睛形状和注视、头发纹理以及整体光照、颜色、饱和度和景深,以减少人物图像中的视觉错误。
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
英伟达与特拉维夫大学的研究人员联手开发了一款名为ConsiStory的文生图模型,旨在解决目前文生图模型在生成内容一致性方面的挑战。ConsiStory采用了一种全新的方法,通过主体驱动自注意力和特征注入等核心模块,实现了图像主体的一致性,无需任何训练或调优。这些功能共同助力ConsiStory成为一款无需训练即可生成连贯图片的文生图模型,为AI图像生成领域带来了新的可能性
多数文生图模型皆使用的是随机采样模式,使得每次生成的图像效果皆不同,在生成连贯的图像方面非常差。想通过AI生成一套图像连环画,即便使用同类的提示词也很难实现。也就是说生成的图像可以相互关注、共享特征,这使得ConsiStory实现了0训练成本,避免了传统方法中需要针对每个主题进行训练的难题。
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
美国AI创企StabilityAI发布了StableCascade预览版。这个模型是基于Würstchen架构的文本到图像扩散模型,可以在消费级硬件上进行训练和微调。它在训练和推理方面取得了令人印象深刻的结果,展现出其在效率方面的优势。
【新智元导读】近日,北大、斯坦福、以及PikaLabs发布了新的开源文生图框架,利用多模态LLM的能力成功解决文生图两大难题,表现超越SDXL和DALL·E3近日,北大、斯坦福、以及爆火的PikaLabs联合发表了一项研究,将大模型文生图的能力提升到了新的高度。论文地址:https://arxiv.org/pdf/2401.11708.pdf代码地址:https://github.com/YangLing0818/RPG-DiffusionMaster论文作者提出了一个全新的免训练文本�
2月13日,著名大模型开源平台StabilityAI在官网,开源了全新文本生成图像模型——StableCascade。SC是根据最新Würstchen基础模型开发成,大幅度降低了对推理、训练的算力需求,例如,训练Würstchen模型使用了约25,000小时性能却更强劲StableDiffusion2.1大约使用了200,000小时。在训练Würstchen基础模型时,参数总量比SDXL多14亿,但训练成本仅是其8分之一。
Taiyi-Diffusion-XL是一款开源的基于StableDiffusion训练的双语文生图生成模型。该模型支持英文和中文的文本到图像生成,相比之前的中文文生图模型有了显著提升。点击前往Taiyi-Diffusion-XL体验入口获取更多信息,释放创造力的无限可能。
RPG-DiffusionMaster是一个利用LLM优化SD文本到图像的转换过程的框架。该框架能够更好地理解和分解生成图像的文字提示,以实现将一幅图像分解成不同的部分或区域,并根据理解的相应文本提示来生成图像,最后合成为一个符合预期要求的图像。实验结果表明,RPG框架能够根据复杂的文本描述生成高度准确和详细的图像,优于现有技术,并具有灵活性和广泛的适用性,能够应用�
文本到图像生成模型的需求不断增长,但高质量图像的生成往往面临资源密集型训练和慢推理的挑战,制约了其实时应用。本文介绍了PIXART-δ,这是PIXART-α框架的先进版本,无缝整合了LatentConsistencyModels和定制的ControlNet模块。这一模型站在最前沿,为实时应用开辟了新的可能性。
来自南加州大学、哈佛大学等机构的研究团队最近提出了一项创新性的生成模型方法,名为DreamDistribution。这一方法基于提示学习,能够通过仅有的几张参照图片学习文本提示分布,从实现高度多样化和个性化的图像生成。应用于文本到3D生成:**通过学习提示分发,可以应用于文本到3D生成,并支持文本引导的编辑,提供更多维度的图像生成能力。
麻省理工与Meta共同开发了“表示条件的图像生成”模型,无需任何人工标注,生成出来的图片效果显著。新AI图像分割方法GenSAM:一个提示实现批量图片分割GenSAM模型通过通用任务描述,实现对图像的有针对性分割,摆脱了对样本特定提示的依赖。
GettyImages与Nvidia宣布深化合作,共同推出GenerativeAIbyiStock,这是一款专门为制作库存照片设计的文本到图像平台。GenerativeAIbyiStock在Getty的第一次尝试AI图像生成基础上进行了进一步发展。Outpainting可以为不同的宽高比扩展照片并填充这些新区域。
文生图领域一直面临着一个核心难题,就是有条件图像生成的效果,远超无条件的图像生成。有条件图像生成是指模型在生成图像的过程中,会额外使用类别、文本等辅助信息进行指导,这样可以更好的理解用户的文本意图,生成的图像质量也更高。RCG的FID分数为3.56和IS的253.4,超过了之前最好的无条件生成模型MAGE的结果,与当前状态最好的有条件模型CDM差不多。
虽然提示词只是要生成「动画版的玩具」,但结果和《玩具总动员》没有区别。《纽约时报》指控OpenAI涉嫌违规使用其内容用于人工智能开发的事件引起了社区极大的关注与讨论。更多详细内容,请参阅原博客。