首页 > 业界 > 关键词  > ConsiStory最新资讯  > 正文

AI视野:英伟达推文生图模型ConsiStory;高度可控AI试衣OOTDiffusion;开发者推SoraWebui开源项目;Groq最快AI推理芯片成本推算高得离谱

2024-02-21 15:21 · 稿源:站长之家

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

🤖📱💼AI应用

英伟达推出免训练,可生成连贯图片的文生图模型ConsiStory

图片

【AiBase提要:】

⭐️ 多数文生图模型使用随机采样模式,导致生成图像不连贯

⭐️ AI生成连贯图像连环画难度大,现有模型效果有限

⭐️ ConsiStory是一种免训练连贯文生图模型,可提升图像一致性和连贯性

论文地址:https://arxiv.org/abs/2402.03286

OOTDiffusion:一个高度可控的虚拟服装试穿AI工具

image.png

【AiBase提要:】

⭐️ 高度可控的虚拟服装试穿工具

⭐️ 按性别和体型自动调整,与模特身形贴合

⭐️ 支持半身模型和全身模型,试穿效果自然逼真

项目地址:https://top.aibase.com/tool/ootdiffusion

试玩地址:https://ootd.ibot.cn/

Sora还没正式开放 有开发者已经搞出了SoraWebui

【AiBase提要:】

🚀 Sora因视频生成效果惊艳火爆出圈,但仍在内测阶段,多数用户只能看。

🛠️ SoraWebui开源项目提前研究,模拟API接口字段实现,为未来上线做准备。

🔗 开源项目支持Vercel一键部署,便于开发者使用和测试。

项目地址:https://top.aibase.com/tool/sorawebui

Adobe推类ChatGPT助手AI Assistant 并集成到PDF中

image.png

【AiBase提要:】

⭐ Adobe推出生成式AI助手AI Assistant

⭐ AI Assistant类似于ChatGPT,提供摘要、核心见解

⭐ 用户可通过AI生成引擎验证答案来源,提升Reader和Acrobat的商业价值

谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型

【AiBase提要:】

⭐️GoogleAI团队推出了ScreenAI,一个视觉语言模型。

⭐️ScreenAI在多个任务上表现出色,包括图形问答和摘要生成。

⭐️发布了三个新数据集,为未来研究提供更多资源。

论文地址:https://arxiv.org/abs/2402.04615

FreeControl:无需训练即可控制任何文本到图像扩散模型的空间控制方法

image.png

【AiBase提要:】

⭐️支持多个条件、架构和检查点同时进行控制生成

⭐️通过结构和外观引导,实现对生成图像的控制

⭐️展示了 T2I 扩散模型进行可控生成的定性结果

项目网址:https://top.aibase.com/tool/freecontrol

Comfyui更新Stable Cascade 7个模型整合为两个模型文件

【AiBase提要:】

⭐ 简化操作流程,用户只需选择C和B阶段的模型文件

⭐ 提高用户便利性,更新后生成的图片质量和美观度显著提升

⭐ 但更新带来伪影问题,期待官方修复,提升用户体验

项目地址:https://top.aibase.com/tool/stable-cascade

工作流及模型下载:https://comfyanonymous.github.io/ComfyUI_examples/stable_cascade/

Reddit大佬开发GLIGEN GUI 可指定图像大小、位置等

image.png

【AiBase提要:】

⭐️ GLIGEN GUI让用户可以控制生成图像的大小、位置和元素之间的空间关系

⭐️ GLIGEN可以根据自然语言描述生成高质量的图像

⭐️ GLIGEN提供灵活性和创造性,让用户创造惊人的图像作品

GLIGEN GUI项目地址:https://top.aibase.com/tool/gligen-gui

GLIGEN项目地址:https://top.aibase.com/tool/gligen

目标检测跟踪模型YOLOv8能快速识别和定位多个对象

image.png

【AiBase提要:】

⭐ YOLOv8是一种先进的目标检测跟踪模型

⭐ 支持多种格式部署,提高了模型的可用性和兼容性

⭐ 适用于多种领域,包括安防监控、医疗图像分析、自动驾驶等

项目地址:https://top.aibase.com/tool/yolov8

FiT:一种全新的Transformer架构图像生成模型 分辨率和高宽比不受限制

【AiBase提要:】

⭐ FiT将图像视为一系列可变大小的图像块(Token)

⭐ FiT在处理不同分辨率的图像方面表现出卓越性能

⭐ FiT为生成不受限制的图像提供新的解决方案

项目地址:https://top.aibase.com/tool/fit

AnyGPT:实现任意模态输入到任意模态输出

image.png

【AiBase提要】

⚙️ 采用离散表示技术,实现多模态输入的统一处理

🔄 灵活性: 可稳定训练并轻松集成新模态

🎭 实用性: 生成大规模多模态指令数据集,实现任意多模态对话

产品入口:https://top.aibase.com/tool/any-gpt-

📰🤖📢AI新鲜事

Groq最快AI推理芯片成本推算高得离谱 运行LIama2得1171万美元

image.png

【AiBase提要:】

⚙️ Groq公司推出AI芯片与英伟达GPU性价比对比

💰 运行LIama2所需成本高达1171万美元

🔎 分析师评估成本效益,Groq需面对英伟达竞争

项目入口:https://top.aibase.com/tool/groq

马斯克X平台与Midjourney正商谈合作 致力于生成式AI项目

【AiBase提要】

⚙️ Elon Musk的X与Midjourney商谈合作,可能推动生成式人工智能项目。

🧠 可能合作在选举前识别X平台上的GenAI内容,推动人工智能技术应用。

🌐 Midjourney的生成式AI计划可根据自然语言描述生成图像,与其他项目类似。

B站UP主让AI修习春山学 视频播放量近200万

【AiBase提要:】

⭐️ 央视春晚《上春山》引发热议,UP主让AI修习春山学。

⭐️ AI识别节目表演者面部情绪,实时显示在视频中。

⭐️ AI情绪识别技术或带来更多便利和乐趣。

举报

  • 相关推荐
  • Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用、开发者全面拥抱MCP

    4月25日,百度在武汉举办Create 2025开发者大会。李彦宏发布文心大模型4.5 Turbo和深度思考模型X1 Turbo,性能提升同时价格大幅下降。大会推出全球首个电商交易MCP平台,并发布数字人、智能体心响APP等多款AI应用。百度宣布未来5年培养1000万AI人才,并点亮国内首个三万卡集群。同时启动第三届"文心杯"创业大赛,最高奖金达7000万元。大会还包含6大分会场、40节AI公开课及5000平互动展区,全面展示百度AI生态布局。

  • 字节AI加速文生图技术新突破,GOOG/微美全息引领开源大模型释放科技势能

    字节跳动发布豆包1.5深度思考模型,升级文生图能力。该模型在专业领域和通用任务中表现突出,采用MoE架构,总参数量200B,激活参数20B,推理成本优势显著。同时,其图像生成模型Seedream 3.0性能追平GPT-4o等顶尖模型。全球AI产业加速发展,开源模型降低技术门槛,推动商业化落地。微美全息等企业构建开放AI生态,DeepSeek等公司通过开源策略促进技术普惠。行业迎来"开源AI+"新阶段,企业需把握机遇应对挑战。

  • 挑战GPT-4o!AI文生图惊现黑马,国产团队HiDream如何逆袭?

    HiDream是一款由国内团队开发的AI模型,擅长生成复杂的图片与多种风格的艺术作品。它在多个测试中表现出对细节、材质、光影控制以及创意概念的良好理解,尤其在人物动态、精细绘画等方面效果显著。HiDream支持输出4K高清图片,并兼容多种应用领域,包括商业用途。尽管在某些特定要求下还需提升表现,但其潜力和实际效果已受到关注。

  • 英伟达CEO黄仁勋造访白宫:希望特朗普修改AI芯片出口规则

    快科技5月1日消息,据媒体报道,美国当地时间周三, 英伟达公司首席执行官黄仁勋造访白宫时表示,他希望特朗普政府修改从美国向全球出口人工智能(AI)技术的相关法规,以便美国企业能更好地抓住未来的机遇。我们需要加速美国AI技术在全球的扩散,”黄仁勋在与媒体的简短会面中表示,政府的政策和鼓励措施必须真正支持这一点。”与此同时,黄仁勋还呼吁美国政府放宽人工智能图形处理单元出口规定,但媒体报道特朗普政府计划加强控制。众所周知,英伟达目前主导着用于训练AI模型的尖端AI芯片市场,但其向中国客户销售最先进产品的渠道已被?

  • AI日报:小米首个推理大模型开源Xiaomi MiMo;手上线AI笔记工具“喵记多”;腾讯拆分AI团队

    本文汇总了AI领域最新动态:1)小米开源70亿参数大模型Xiaomi MiMo,在数学推理和代码竞赛中超越OpenAI和阿里模型;2)快手推出AI笔记工具"喵记多",简化笔记管理;3)Luma AI发布电影级镜头控制API,降低视频生成门槛;4)腾讯重组AI团队,加大语言模型研发投入;5)Anthropic为Claude引入新语音"Glassy";6)谷歌NotebookLM新增50+语言音频概述功能;7)xAI将发布Grok3.5模型;8)Meta推出独立AI助手应用挑战ChatGPT;9)OpenAI紧急修复GPT-4o"谄媚"问题;10)Mac本地AI助手Simular升级隐私保护;11)CameraBench项目帮助AI理解镜头运动;12)谷歌推出个性化语言学习AI工具。

  • Create2025百AI开发者大会举行 文心4.5 Turbo、X1 Turbo发布

    百度在武汉举办Create2025+AI开发者大会,李彦宏强调AI应用创造价值的关键。他指出当前AI模型迭代加速,MCP成为行业标准,但开发者担忧应用快速过时。李彦宏建议开发者选对场景和基础模型,并学习调优方法。百度发布文心大模型4.5 Turbo和X1 Turbo,价格大幅下降80%和50%,性能提升且成本更低,为开发者提供更实惠高效的工具选择。

  • Unity首席执行官:96% 的游戏开发者已开始用 AI

    “市面上有很多生成式 AI 资源,但很少有公司能够用好它们,”布罗姆伯格说,因为 AI 并未无缝地融入到制作过程中……

  • Create2025百AI开发者大会上热搜 4.5Turbo、X1Turbo发布

    百度在武汉举办2025AI开发者大会,正式发布文心大模型4.5Turbo和X1Turbo两大版本。4.5Turbo在多模态处理能力上实现突破,支持文本、图像、语音跨模态交互,调用成本较前代直降80%,仅为竞品价格的40%。X1Turbo强化深度推理能力,价格较上代降50%,成本仅占竞品的25%。两款产品围绕"多模态、强推理、低成本"三大特性展开,其中4.5Turbo提升逻辑推理与代码生成效率,X1Turbo支持多步骤复杂推理和跨工具调用能力。百度此次定价策略极具竞争力,4.5Turbo成本降至行业主流水平的1/5,瞄准中小企业及个人开发者;X1Turbo虽定位高端,但成本仅为竞品1/4,主要面向科研机构、金融分析等高要求领域。

  • AI引擎数值怪天玑座舱平台CX-1发布,将智能座舱AI体验推向新高度

    联发科发布天玑汽车旗舰座舱平台C-X1,采用3nm制程工艺和Arm v9.2-A架构,搭载12核CPU和NVIDIA Blackwell GPU,AI算力达400TOPS,CPU单核性能领先行业80%,GPU渲染性能提升300%。该平台支持多模态交互和毫秒级响应,打破"车-家-手机"生态壁垒,实现跨端智能中枢。C-X1还集成强大ISP影像处理能力,支持12摄像头并行工作和8K视频录制。联发科预计到2028年,其汽车座舱平台全球营收将超30亿美元。这款产品标志着3nm车规芯片量产落地,推动智能座舱向AI定义座舱升级,成为行业新标杆。

  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。