首页 > 业界 > 关键词  > StableDiffusion3最新资讯  > 正文

AI视野:Stable Diffusion3发布;剪映海外版CapCut推文生视频;微软win10、win11照片应用增加AI橡皮擦功能;OpenAI更新GPT商店

2024-02-23 15:06 · 稿源:站长之家

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

QQ截图20240223152418.png

🤖📱💼AI应用

Stable Diffusion3发布 文字渲染能力超强,图像生成质量超越Midjourney

image.png

【AiBase提要:】

⭐️ Stable Diffusion3发布,具有强大的文字渲染、多主题提示和图像质量能力。

⭐️ 技术方面结合了扩散型transformer架构和flow matching技术。

⭐️ 公测开放的Stable Video提供文生视频和图生视频功能。

排队地址:https://top.aibase.com/tool/stable-diffusion-3

剪映海外版CapCut推文生视频功能 每人每天可免费生成5个视频

image.png

【AiBase提要:】

⭐ 支持AI自动转换文字描述为视频

⭐ 多镜头组合剪辑,生成丰富视频效果

⭐ 每人每天免费生成5个视频,适用人群广泛

官方入口:https://top.aibase.com/tool/capcutwenshengshipin

微软Windows10和 Windows11的照片应用增加AI橡皮擦功能

image.png

【AiBase提要:】

⚙️ Generative Erase功能类似魔术橡皮擦,为照片编辑带来全新体验。

📷 用户可轻松进行图像中的AI移除操作,提高编辑便捷性和效果。

💡 微软通过Generative Erase持续创新图像处理,提供更丰富编辑工具和体验。

创新性3D数据合成模型,微软推出EgoGen

【AiBase提要:】

⭐ EgoGen能够适用于多个自我中心感知任务,使用创新的人体运动合成模型来合成高质量数据。

⭐ 通过双阶段强化学习方案,EgoGen无缝结合自我感知视觉线索和身体运动,实现更加自然的运动。

⭐ EgoGen在人称感知任务上取得了显著成果,提升了现有算法在头戴式摄像头建图和定位等任务中的性能。

论文地址:https://arxiv.org/abs/2401.08739

即将开源地址:https://github.com/ligengen/EgoGen

智源研究院推出新一代多模态小模型Bunny-3B

【AiBase提要:】

⭐ 通过数据浓缩技术获得高质量训练数据

⭐ 将LAION-2B压缩成2M核心集

⭐ Bunny-3B小模型在多模态任务上表现优异

项目地址:https://github.com/BAAI-DCAI/Bunny

强大代码解释器OpenCodeInterpreter 可运行生成的代码

image.png

【AiBase提要:】

⭐️ 自动创建代码段,完成编程任务

⭐️ 运行生成的代码验证预期工作

⭐️ 根据执行结果和反馈生成更优质代码

项目地址:https://top.aibase.com/tool/opencodeinterpreter

模型:

https://huggingface.co/collections/m-a-p/opencodeinterpreter-65d312f6f88da990a64da456

📰🤖📢AI新鲜事

OpenAI更新GPT商店,增加用户评分和扩展构建者资料

image.png

【AiBase提要:】

⭐ 用户现在可以为第三方GPT进行评分

🤖 GPT构建者的个人资料更丰富,包括链接和评分信息

🔄 OpenAI未实现根据GPT使用频率分享收益的计划

Midjourney计划在6个月内开放API 视频功能会推迟到V7模型

【AiBase提要:】

⭐ Midjourney计划在未来六个月内开放API

⭐ V7模型将生成视频,产品即将在中国推出

⭐ Midjourney的发展前景看好,值得期待

Reddit通过与AI公司合作的数据授权收入达2.03亿美元

【AiBase提要:】

🤖 Reddit强调与AI供应商的关系,特别是与OpenAI等公司的合作对上市前景产生积极影响。

🌐 Reddit数据对AI模型培训的重要性,以及AI公司通过授权协议获取数据的焦点。

📈 Reddit通过数据授权实现巨额收入,凸显数据在AI领域的关键作用。

Chrome 获得由 Gemini 提供支持的内置 AI 写作工具

【AiBase提要:】

⭐ Chrome浏览器推出新的AI写作生成器

⭐ Gemini驱动,可帮助写各种文本内容

⭐ 实验阶段,仅在Windows、Mac、Linux提供英文版本

举报

  • 相关推荐
  • ​骏驰新程,视联智造,Vision China 2026(上海)机器视觉展圆满落幕

    2026年3月25日至27日,Vision+China2026(上海)机器视觉展在上海新国际博览中心举办。展会聚焦机器视觉与人工智能的深度融合,特设“Vision+AI+机器人”创新展区,展示了视觉技术、AI与机器人在工业应用中的协同潜力。众多国内外知名企业参展,呈现了高精度工业相机、智能传感器、3D视觉设备及AI视觉算法等最新成果。同期举办的研讨会汇聚行业专家,探讨了视觉与AI融合如何推动工厂智能化转型,助力降本增效。展会为行业搭建了交流平台,彰显了机器视觉技术在智能制造领域的广阔前景。

  • Vision China 2026(上海)机器视觉展盛大开幕!

    2026年3月25日至27日,Vision+China2026(上海)机器视觉展成功举办。展会由CMVU主办,规模近3万平方米,吸引全球近300家企业参展。核心亮点是视觉技术与人工智能、机器人的深度融合,特别设立“VISION+AI+机器人”创新展区,展示三者协同应用潜力。同期研讨会聚焦“VISION+AI+机器人驱动工厂数智化”,举办17场专题演讲,探讨技术趋势与落地实践。展会还揭晓了“2025机器视觉创新产品TOP10”评选结果,集中展示年度技术突破,为行业发展注入创新动能。

  • 扫描即指令:罗地格 Cargo Direct 如何实现从“被动记录”到“主动指令”的跨越?

    航空货运枢纽日益追求“高密度、高复杂、高效率”运营模式,单纯依赖设备自动化已触及发展瓶颈。罗地格工业推出的Cargo+Direct模块,成为破解这一难题的精准解决方案。作为智能设备管理系统Cargo Professional Suite的核心组件,它凭借强大数字化能力,实现对货物周转、人员作业的流程精准覆盖与实时管控,助力货站运营迈向精细化、智能化管理。其核心功能包括:一键扫码指令直达,将复杂后台算法转化为一线操作员的简单指令;全程可追溯,以货件单元为层级实现精细流程管理与合规追溯;智能路径规划,优化货物转运路径,提升空间利用率与吞吐量;开放兼容,可无缝对接货运管理系统并支持IATA标准接口。Cargo+Direct无需大规模改造,支持“边运营、边升级”的渐进式发展模式,通过数据驱动的智能管理,让每件货物都能以更短路径、更少等待完成处理流程,是航空货站突破效率瓶颈、实现智能化升级的核心利器。

  • 从“我”到“我们”:一场定义好生活的女性合声正在响起丨CBNData报告

    文章探讨了当代女性自我认知与社会角色的深刻变革。女性正从个体觉醒走向集体共鸣,通过消费等直接方式表达真实需求,拒绝单一标签,接纳复杂真实的自我。90后与00后女性成为核心引领者,带动跨年龄层广泛共议。消费不仅是个人选择,更是为“我们”的需求投票,推动市场规则与社会认知改变。品牌需以专业设计回应“她需求”,融入女性叙事,并以实质性行动助推社会进步,让女性友好从口号走向日常。

  • openclaw github installation guide:官方安装全流程!

    本文介绍了2026年AI行业已进入注重落地和实际应用的智能体阶段,并推荐了开源智能体框架OpenClaw。文章提供了详细的保姆级部署教程,支持Windows、macOS、Linux全平台,涵盖网关搭建、认证配置、模型对接等步骤,帮助用户快速拥有专属的私有化AI助手,实现隐私自主与强大执行能力。教程包括环境准备、一键安装、模型选择(如Kimi、OpenAI等)、API配置及TUI界面使用,并解答了常见问题。最终目标是让用户轻松部署并开启专属AI的高效应用之旅。

  • 予之文化X火山引擎:AI MediaKit+Seedance 2.0,探索品牌与电商内容工业化新路径

    当前AIGC视频生成技术正从“技术探索”迈向“规模化应用”的关键阶段。以Seedance2.0为代表的新一代视频生成模型在创意、语义理解和画面一致性等方面表现出色,并在2026年央视春晚展示了8K/50FPS超清视频的生成能力。然而,商业化落地仍面临原生分辨率不足、帧率受限、生成成本高昂等瓶颈。火山引擎推出的AI+MediaKit画质增强产品,与Seedance2.0形成“最佳拍档”,通过“低分辨率生成+智能筛选+画质增强”的分层策略,在控制成本的同时提升输出画质,助力用户完成从“可用”到“好用”的品质跃升。该方案已在电商、品牌营销等场景得到验证,为AIGC视频的规模化、高质量生产提供了可靠路径。

  • 安利一个11万Star的必装插件,能让你的Agent体验直接质变。

    ​最近一直在聊Agent、聊Vibe Coding。 但是在给越来越多的朋友安利的时候,发现其实,一直有一个问题被忽略了。 就是,真正卡住大多数人的,是自己没有一个标准的工作流程。 特别在创造一个你想要的软件或者程序的时候,没有标准流程,其实是一件非常可怕的事情。 所以,我想给大家分享一个我自己在vibe coding的时候,一直在用的一个超好用的帮我提高Coding体验的一个

  • 京东开源图像模型JoyAI-Image-Edit:达到世界一流水平

    京东探索研究院近日开源了自研的JoyAI-Image-Edit图像模型,其核心突破在于能理解图像的三维空间结构,解决了传统AI修图空间逻辑混乱的问题。该模型具备三大空间编辑能力:视角变换、空间漫游和物体空间关系操控,并兼容15类通用编辑功能。应用场景广泛,尤其在具身智能领域,可为机器人理解世界提供关键底层能力。京东近期在AI领域动作频频,持续推动AI与产业深度融合。

  • 三星Music Studio画境艺术音响新品开售,双系共筑环绕声场与精致格调体验

    随着“耳朵经济”升级,消费者在追求高品质音效的同时,也注重音响设备与家居美学、情感体验的融合。三星Music+Studio画境艺术音响系列新品于4月13日开售,旨在为家庭带来沉浸式听觉享受与空间表达。其中,7系搭载3.1.1声道架构,支持高解析音频,配合Q交响乐技术,实现电视与音响协同发声,打造影院级环绕声场;5系设计简约,支持无线连接,适合多场景使用,提供便捷的高品质音乐体验。该系列重新定义了音响在家庭中的角色,融合声学科技与艺术设计,满足用户对声音、美学与情感的全方位追求。

  • 从 RTX 到 Spark:NVIDIA 为本地代理式 AI 加速 Gemma 4

    Google推出小巧、快速且具备多模态能力的Gemma4模型家族,与NVIDIA合作优化,可在各类设备上高效本地运行。该系列涵盖E2B至31B多种变体,专为从边缘设备到高性能GPU的高效部署设计。Gemma4支持推理、编码、智能体及多模态交互等丰富任务,并兼容OpenClaw等应用,实现任务自动化。用户可通过Ollama或llama.cpp在NVIDIA RTX GPU和DGX Spark上免费运行。

今日大家都在搜的词: