AI视野：英伟达推文生图模型ConsiStory；高度可控AI试衣OOTDiffusion；开发者推SoraWebui开源项目；Groq最快AI推理芯片成本推算高得离谱

2024-02-21 15:21 · 稿源：站长之家

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

🤖📱💼AI应用

英伟达推出免训练，可生成连贯图片的文生图模型ConsiStory

【AiBase提要:】
⭐️ 多数文生图模型使用随机采样模式，导致生成图像不连贯
⭐️ AI生成连贯图像连环画难度大，现有模型效果有限
⭐️ ConsiStory是一种免训练连贯文生图模型，可提升图像一致性和连贯性
论文地址:https://arxiv.org/abs/2402.03286

OOTDiffusion:一个高度可控的虚拟服装试穿AI工具

【AiBase提要:】
⭐️ 高度可控的虚拟服装试穿工具
⭐️ 按性别和体型自动调整，与模特身形贴合
⭐️ 支持半身模型和全身模型，试穿效果自然逼真
项目地址:https://top.aibase.com/tool/ootdiffusion
试玩地址:https://ootd.ibot.cn/

Sora还没正式开放有开发者已经搞出了SoraWebui

【AiBase提要:】
🚀 Sora因视频生成效果惊艳火爆出圈，但仍在内测阶段，多数用户只能看。
🛠️ SoraWebui开源项目提前研究，模拟API接口字段实现，为未来上线做准备。
🔗 开源项目支持Vercel一键部署，便于开发者使用和测试。
项目地址:https://top.aibase.com/tool/sorawebui

Adobe推类ChatGPT助手AI Assistant 并集成到PDF中

【AiBase提要:】
⭐ Adobe推出生成式AI助手AI Assistant
⭐ AI Assistant类似于ChatGPT，提供摘要、核心见解
⭐ 用户可通过AI生成引擎验证答案来源，提升Reader和Acrobat的商业价值

谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型

【AiBase提要:】
⭐️GoogleAI团队推出了ScreenAI，一个视觉语言模型。
⭐️ScreenAI在多个任务上表现出色，包括图形问答和摘要生成。
⭐️发布了三个新数据集，为未来研究提供更多资源。
论文地址:https://arxiv.org/abs/2402.04615

FreeControl:无需训练即可控制任何文本到图像扩散模型的空间控制方法

【AiBase提要:】
⭐️支持多个条件、架构和检查点同时进行控制生成
⭐️通过结构和外观引导，实现对生成图像的控制
⭐️展示了 T2I 扩散模型进行可控生成的定性结果
项目网址:https://top.aibase.com/tool/freecontrol

Comfyui更新Stable Cascade 7个模型整合为两个模型文件

【AiBase提要:】
⭐ 简化操作流程，用户只需选择C和B阶段的模型文件
⭐ 提高用户便利性，更新后生成的图片质量和美观度显著提升
⭐ 但更新带来伪影问题，期待官方修复，提升用户体验
项目地址:https://top.aibase.com/tool/stable-cascade
工作流及模型下载:https://comfyanonymous.github.io/ComfyUI_examples/stable_cascade/

Reddit大佬开发GLIGEN GUI 可指定图像大小、位置等

【AiBase提要:】
⭐️ GLIGEN GUI让用户可以控制生成图像的大小、位置和元素之间的空间关系
⭐️ GLIGEN可以根据自然语言描述生成高质量的图像
⭐️ GLIGEN提供灵活性和创造性，让用户创造惊人的图像作品
GLIGEN GUI项目地址:https://top.aibase.com/tool/gligen-gui
GLIGEN项目地址:https://top.aibase.com/tool/gligen

目标检测跟踪模型YOLOv8能快速识别和定位多个对象

【AiBase提要:】
⭐ YOLOv8是一种先进的目标检测跟踪模型
⭐ 支持多种格式部署，提高了模型的可用性和兼容性
⭐ 适用于多种领域，包括安防监控、医疗图像分析、自动驾驶等
项目地址:https://top.aibase.com/tool/yolov8

FiT:一种全新的Transformer架构图像生成模型分辨率和高宽比不受限制

【AiBase提要:】
⭐ FiT将图像视为一系列可变大小的图像块（Token）
⭐ FiT在处理不同分辨率的图像方面表现出卓越性能
⭐ FiT为生成不受限制的图像提供新的解决方案
项目地址:https://top.aibase.com/tool/fit

AnyGPT:实现任意模态输入到任意模态输出

【AiBase提要】
⚙️ 采用离散表示技术，实现多模态输入的统一处理
🔄 灵活性: 可稳定训练并轻松集成新模态
🎭 实用性: 生成大规模多模态指令数据集，实现任意多模态对话
产品入口:https://top.aibase.com/tool/any-gpt-

📰🤖📢AI新鲜事

Groq最快AI推理芯片成本推算高得离谱运行LIama2得1171万美元

【AiBase提要:】
⚙️ Groq公司推出AI芯片与英伟达GPU性价比对比
💰 运行LIama2所需成本高达1171万美元
🔎 分析师评估成本效益，Groq需面对英伟达竞争
项目入口:https://top.aibase.com/tool/groq

马斯克X平台与Midjourney正商谈合作致力于生成式AI项目

【AiBase提要】
⚙️ Elon Musk的X与Midjourney商谈合作，可能推动生成式人工智能项目。
🧠 可能合作在选举前识别X平台上的GenAI内容，推动人工智能技术应用。
🌐 Midjourney的生成式AI计划可根据自然语言描述生成图像，与其他项目类似。

B站UP主让AI修习春山学视频播放量近200万

【AiBase提要:】
⭐️ 央视春晚《上春山》引发热议，UP主让AI修习春山学。
⭐️ AI识别节目表演者面部情绪，实时显示在视频中。
⭐️ AI情绪识别技术或带来更多便利和乐趣。

（举报）

相关推荐
大家在看

关键词：

ConsiStory

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Stable Diffusion 3 API申请入口 AI文生图API官方免费申请地址

StableDiffusion3API是一款先进的文本到图像生成系统，它在排版和提示遵循方面与DALL-E3和Midjourneyv6等顶尖系统相匹敌或更优。该系统采用新的多模态扩散变换器架构，使用不同的权重集来改善图像和语言的表示，从提高文本理解和拼写能力。StableDiffusion3API的使用场景示例在以下情况下，您可以使用StableDiffusion3API进行图像生成：生成广告宣传图创建游戏角色概念图辅助教学材料的图像制作产品特色和功能StableDiffusion3API具有以下特色和功能：文本到图像的生成多模态扩散变换器架构图像和语言的独立表示文本理解和拼写能力提升想要了解更多关于StableDiffusion3API的信息并开始您的图像生成之旅，请访问StableDiffusion3API官方网站。

StableDiffusion3API
AI文生图模型PixArt-sigma，可以生成4K分辨率图片

PixArt-sigma由华为诺亚方舟实验室联合多个研究机构共同开发的项目，是一个强大的文本到图像生成模型，通过弥散Transformer进行弱到强训练，旨在实现4K分辨率的图像生成。PixArt-sigma采用了弥散Transformer进行弱到强训练，从能够更好地生成高质量的4K分辨率图像。在应用方面，PixArt-Σ是一款强大的文本到图像生成工具，具有广泛的应用场景，可以满足艺术、设计、游戏开发、营销

PixArt-sigma AI头条
荐AI日报：首个AI程序员Devin造假被抓；Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/🤖📱💼AI应用Sora平替?2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布UdioAI提供多功能音频生成还可以创作喜剧、演讲、电台广播等美图Wink“AI动漫”功能升级可将短剧作品转化为动漫风格StableDesign:适用于室内装修设计的SD方案文字提示就可修改室内设计图比换脸更强大!SwapAnything:替换图片中的任意元素AI延时视频生成工具MagicTime在线体验地址放出自动化写作工具STORM:可生成像维基百科一样的深度长篇内容Meta推出ViewDiff模型:文本生成多视角3D图像📰🤖📢AI新鲜事首个AI程序员造假被抓，Devin再次“震撼”硅谷!扒皮视频文字详解附上马斯克XAI发布Grok-1.5Vision多模态模型，可处理文本和图片信息360智脑7B参数大模型正式开源最长支持约50万字输入Adobe图像生成AI“Firefly”训练集中约有5%为AI图像代码、模型全开源!贾佳亚团队多模态模型Mini-Gemini登上热榜面壁智能开源MiniCPM2.0系列模型OCR等能力显著增强竞争升温!ChatGPT增长疲软3月全球访问量17.7亿次，Claude逐渐崛起InstantID团队推新风格迁移方法InstantStyle一键置身“梵高星空”——————每日midjourneyprompt:小说古风美女图源备注：图片由AI生成，图片授权服务商MidjourneyAbeautifulwomanfromancientChina，dressedinagorgeousredHanfu，withlonghairdrapedoverhershoulders，satinherboudoirwithasmile.Ancientstyle，hanfu，boudoir，gorgeous，palace，screen，carpet，softlight，eleganttemperament，ancientculture，inlinewithorientalaesthetics，richdetails，bestquality，exquisitemakeup，cleareyelinerpen，slendereyebrows，texturedskin，whiteskin，charmingheaddress，--ar3:4--niji6--styleraw一个中国古代美女，穿着华丽的红色汉服，长发披肩，微笑着坐在闺房内。

Devin
fal官网体验入口生成式媒体模型AI推理工具使用地址

fal是一个生成式媒体平台，旨在为开发者提供最先进的生成式媒体模型，并通过fal的推理专家优化，实现闪电般快速的推理。该平台支持实时WebSocket推理基础设施，并提供私有部署选项，以最经济的方式根据使用量付费。开发者可通过fal灵活的计费方式，实现经济高效的生成式媒体应用。

fal
Fireworks.ai开源API使任何开发者都能使用生成式AI

随着人们对生成式AI的热情不断高涨，越来越多的公司试图涉足这一领域。Fireworks.ai就是其中之一。该公司在2022年获得了2500万美元的融资，由Benchmark领投，SequoiaCapital和未透露姓名的天使投资者参与。

Fireworks.ai 生成式AI AI头条
荐除了唱歌，AI还能替你演出？又一AI公司将虚拟人推到新高度

用Suno十秒写歌，是不是已经很震撼?现在不仅如此，用最新的AI工具，我们还可以快速生成歌手唱歌MV。一家名为AKOOL的AI公司推出了一个唱歌虚拟人工具，用户只需在平台上选择虚拟人，简单输入歌词指令，便可生成能唱歌的虚拟人MV。随着AI技术的不断进步，AKOOL将继续在创新和责任之间寻找平衡，引领行业技术向前发展。

虚拟人
英伟达斥资7亿美元收购Run:ai，进一步巩固在AI领域地位

AI巨头公司英伟达继续其战略性收购行动，今日宣布将收购一家以色列初创公司，以使AI芯片更高效。这家芯片制造商已经签署了一项“最终协议”，收购基于Kubernetes的软件提供商Run:ai，后者帮助优化图形处理单元上的AI应用和工作负载。“Run:ai自2020年以来一直与英伟达紧密合作，我们都热衷于帮助客户充分利用其基础设施，”Geller在宣布这项交易的英伟达博客文章中说道。

Run:ai 英伟达 AI头条
Diffusion-RWKV官网体验入口 AI生成高质量图像工具使用地址

Diffusion-RWKV是一种基于RWKV架构的扩散模型，旨在提高扩散模型的可扩展性。它针对图像生成任务进行了相应的优化和改进，可以生成高质量的图像。欲了解更多详细信息并开始使用Diffusion-RWKV，请访问Diffusion-RWKV官方网站。

Diffusion-RWKV
荐AI行业买英伟达GPU，花的钱比赚的多17倍

搞AI大模型，实在太烧钱了。如今的生成式AI有很大一部分是资本游戏，科技巨头利用自身强大的算力和数据占据领先位置，并正在使用先进GPU的并行算力将其推广落地。无论花掉多少钱，成为第一可能就会带来潜在的收益……但是什么样的收益，我们还无法作出预测。

AI 大模型资本游戏
Stability AI发布CosXL模型图像处理能力更精细

StabilityAI最近推出了CosXL模型，这是一项包括基础版CoXL和增强版EditCosXL的创新技术。这些模型的发布，标志着图像生成和编辑技术的新里程碑，为用户提供了更加强大和精细的图像处理能力。特别是ComfyUI，它还为用户提供了详细的工作流程和指导，帮助用户更加高效和便捷地使用CosXL模型。

CosXL AI头条

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

AI视野：英伟达推文生图模型ConsiStory；高度可控AI试衣OOTDiffusion；开发者推SoraWebui开源项目；Groq最快AI推理芯片成本推算高得离谱

今日大家都在搜的词：

热文

站长商机