首页 > 业界 > 关键词  > 正文

免费试玩!商汤绘画大模型 RAPHAEL 出手即大作,击败 Stable Diffusion XL

2023-07-13 15:04 · 稿源:站长之家

站长之家(ChinaZ.com)7月13日 消息:商汤大模型团队提出的文生图大模型 RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,速度极快。RAPHAEL 通过 Space-MoE、Time-MoE 和 Edge-supervised learning 三个组件实现。

QQ截图20230713150407.jpg

论文地址:https://arxiv.org/pdf/2305.18295.pdf

Space-MoE 找出了文本中每一个 token 在图片中对应的区域,用不同的 expert 来处理不同的区域,最后融合;Time-MoE 使得模型能够在不同的 timestep 上选择不同的 expert,形成一系列的 diffusion path,用于绘画不同类别的名词、动词或形容词;Edge-supervised learning 模块使用物体的轮廓纹理来监督 attention 模块的学习。

RAPHAEL 在 FID 指标上击败了 Stable Diffusion 和 DALL-E2,同时在图文匹配度和生成质量上超过了其他模型。

RAPHAEL 在线试玩链接:https://miaohua.sensetime.com/zh-CN/

建议将步数调整到100以获得更佳的图片质量。

举报

  • 相关推荐
  • AI日报:智谱发布GLM-5V-Turbo多模态Coding大模型;Seedance 2.0 API正式全量开放;美团 LongCat-AudioDiT 开源

    本期AI日报聚焦多领域进展:智谱发布GLM-5V-Turbo多模态编程模型,实现视觉与编程深度融合;字节跳动火山引擎开放Seedance 2.0视频生成API;美团开源LongCat-AudioDiT,刷新语音克隆SOTA;字节豆包大模型日消耗Token破120万亿,国产模型调用量持续增长;蚂蚁数科推出专业级AI智能体DTClaw;Anthropic测试常驻代理Conway,支持独立UI与Webhook;谷歌即将开源120B参数Gemma 4模型;通义实验室发布Qwen3.6-Plus,提升编程智能体稳定性。

  • 声网对话式AI ×ClawStage:让大模型成为你的专属家庭智能体

    当前智能家居仍停留在“你下指令,我执行”的被动模式,功能虽多却各自为战。随着大模型进入家庭,交互逻辑正发生根本变化:用户无需逐个控制设备,而是以AI为核心,实现家庭设备的统一协同,只需与大模型对话即可。这推动了家庭运行方式从“被动触发”走向“主动服务”。未来智能家居将向“家庭智能体”演进,如ClawStage这类具身AI终端,为大模型提供可定位、可感知、可执行的物理接口,解决AI长期“悬浮”在云端、无法干预真实世界的痛点。声网等实时互动技术让用户与AI的对话更自然流畅,推动大模型能力在家庭场景中落地为可感知的服务。

  • 国产AI大模型GLM-5.1登顶开源第一:可独立编程8小时

    3月底智谱正式推出了GLM-5.1大模型,编程能力评分45.3分,号称比全球最强的Opus 4.6只低了2.6分。 前两天GLM-5.1大模型也正式开源,也深受开发者喜爱,现在最新的排名也来了全球权威AI评测平台LMArena(百万用户参与盲测)更新Code Arena专项榜单,GLM-5.1登顶全球开源模型第一,位列全球模型第三。 除了榜单表现优秀,根据智谱的说法,GLM-5.1不仅继承了上一代模型的开源SOTA编码能

  • ​骏驰新程,视联智造,Vision China 2026(上海)机器视觉展圆满落幕

    2026年3月25日至27日,Vision+China2026(上海)机器视觉展在上海新国际博览中心举办。展会聚焦机器视觉与人工智能的深度融合,特设“Vision+AI+机器人”创新展区,展示了视觉技术、AI与机器人在工业应用中的协同潜力。众多国内外知名企业参展,呈现了高精度工业相机、智能传感器、3D视觉设备及AI视觉算法等最新成果。同期举办的研讨会汇聚行业专家,探讨了视觉与AI融合如何推动工厂智能化转型,助力降本增效。展会为行业搭建了交流平台,彰显了机器视觉技术在智能制造领域的广阔前景。

  • Vision China 2026(上海)机器视觉展盛大开幕!

    2026年3月25日至27日,Vision+China2026(上海)机器视觉展成功举办。展会由CMVU主办,规模近3万平方米,吸引全球近300家企业参展。核心亮点是视觉技术与人工智能、机器人的深度融合,特别设立“VISION+AI+机器人”创新展区,展示三者协同应用潜力。同期研讨会聚焦“VISION+AI+机器人驱动工厂数智化”,举办17场专题演讲,探讨技术趋势与落地实践。展会还揭晓了“2025机器视觉创新产品TOP10”评选结果,集中展示年度技术突破,为行业发展注入创新动能。

  • 大模型吞噬阴影下,美图交出“十年最强”成绩单

    文章探讨了“AI吞噬软件”论调对全球软件市场的冲击,指出并非所有软件都将被取代。以美图为代表的审美决策类应用,因其核心在于满足用户主观审美和创作需求,而非标准化流程,反而通过整合AI能力实现业绩增长。文章认为,AI可能替代流程优化类软件,但难以颠覆需要人类审美决策的应用。未来,AI不会毁灭软件行业,而是成为一道分水岭,区分“AI受害者”与“AI受益者”。美图等公司通过主动变革,将Agent能力整合至产品,聚焦高价值垂直场景,展现了在AI时代的进化与价值。

  • 京东开源图像模型JoyAI-Image-Edit:达到世界一流水平

    京东探索研究院近日开源了自研的JoyAI-Image-Edit图像模型,其核心突破在于能理解图像的三维空间结构,解决了传统AI修图空间逻辑混乱的问题。该模型具备三大空间编辑能力:视角变换、空间漫游和物体空间关系操控,并兼容15类通用编辑功能。应用场景广泛,尤其在具身智能领域,可为机器人理解世界提供关键底层能力。京东近期在AI领域动作频频,持续推动AI与产业深度融合。

  • openclaw github installation guide:官方安装全流程!

    本文介绍了2026年AI行业已进入注重落地和实际应用的智能体阶段,并推荐了开源智能体框架OpenClaw。文章提供了详细的保姆级部署教程,支持Windows、macOS、Linux全平台,涵盖网关搭建、认证配置、模型对接等步骤,帮助用户快速拥有专属的私有化AI助手,实现隐私自主与强大执行能力。教程包括环境准备、一键安装、模型选择(如Kimi、OpenAI等)、API配置及TUI界面使用,并解答了常见问题。最终目标是让用户轻松部署并开启专属AI的高效应用之旅。

  • 字节跳动发布全双工语音大模型Seeduplex!豆包率先接入:打电话可边听边讲

    字节跳动正式推出原生全双工语音大模型Seeduplex,基于边听边说”的全新架构,彻底打破传统AI语音交互一问一答”的局限,实现自然实时对话。 目前Seeduplex已在豆包App全量落地,成为行业内首个规模化应用的全双工语音大模型。 Seeduplex的核心突破的是改变了传统半双工听完再说”的交互模式,真正实现了听与说的同步处理,其中两大核心能力得到重点突破: 精准抗干扰:

  • 全球首个影视行业大模型!PixVerse C1发布:最高1080P、15秒直出

    爱诗科技正式推出PixVerse C1,这是全球首个影视行业大模型,主打专业级视频生成,最高可直接输出1080P、15秒视频,还能做到音画同步、自动分镜,普通人也能快速做出影视级短片。 C1支持文生、图生、参考生成、首尾帧控制多种方式,不用复杂操作,按提示词就能自动完成分镜和剪辑,把创意一步变成成片。 多宫格分镜图可以直接转成连贯视频,自带专业镜头感,省去大�

今日大家都在搜的词: