首页 > 业界 > 关键词  > 正文

免费试玩!商汤绘画大模型 RAPHAEL 出手即大作,击败 Stable Diffusion XL

2023-07-13 15:04 · 稿源:站长之家

站长之家(ChinaZ.com)7月13日 消息:商汤大模型团队提出的文生图大模型 RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,速度极快。RAPHAEL 通过 Space-MoE、Time-MoE 和 Edge-supervised learning 三个组件实现。

QQ截图20230713150407.jpg

论文地址:https://arxiv.org/pdf/2305.18295.pdf

Space-MoE 找出了文本中每一个 token 在图片中对应的区域,用不同的 expert 来处理不同的区域,最后融合;Time-MoE 使得模型能够在不同的 timestep 上选择不同的 expert,形成一系列的 diffusion path,用于绘画不同类别的名词、动词或形容词;Edge-supervised learning 模块使用物体的轮廓纹理来监督 attention 模块的学习。

RAPHAEL 在 FID 指标上击败了 Stable Diffusion 和 DALL-E2,同时在图文匹配度和生成质量上超过了其他模型。

RAPHAEL 在线试玩链接:https://miaohua.sensetime.com/zh-CN/

建议将步数调整到100以获得更佳的图片质量。

举报

  • 相关推荐
  • 大学生校内钓鱼被制止后自己滚水里:即兴rap逗笑众人

    ​6月2日,在南京发生一起引人关注的事件。一名大学生在学校内欲进行钓鱼活动,被保安发现后上前制止,双方由此发生争执。 在争执过程中,这名男生或许是因注意力被分散,没留意脚下情况,不慎被绊倒,随后自己滚落水中。令人忍俊不禁的是,落水后的男生不仅没有惊慌失措,反而振振有词,即兴开启了一段押韵输出,宛如现场来了一段即兴“rap”。从现场视频中可�

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • Staycation风潮来了:在酒店里躺平,比旅游更治愈

    “在酒店吹空调、吃西瓜、躺着追剧,不比在30℃的景点人挤人更香?” 刚刚过去的端午三天假期,时间不够远游,却刚好适合“逃离日常”。越来越多年轻人瞄准当地的高端酒店,开启“微度假”新姿势——Staycation。 Staycation是“Stay”(停留)和“Vacation”(假期)的结合,指的是假期或周末留在当地或附近城市住酒店放松。对于不想折腾、不愿赶车赶景点的年轻人来说,这种

  • 小米YU7内饰公布:HyperVision亮相 天际屏全景显示

    小米汽车5月21日首次公布全新纯电SUV车型YU7的内饰信息,其搭载的"天际屏全景显示"系统(Xiaomi HyperVision)引发关注。该系统将前风挡底部转化为大屏幕,可显示电量、时速、导航等信息,通过内置多个投影装置将内容投射在黑色区域,显示范围从左A柱延伸至右侧。YU7将于5月22日正式发布,预计将公布售价。继SU7取得成功后,YU7有望成为市场热门车型。

  • “淘宝Vision”今年将进军线下 未来旗舰项目已在阿里总部试运行

    淘宝空间购物应用淘宝Vision”今年将进军线下。 目前,淘宝正在酝酿一个未来旗舰店项目,把线上沉浸式购物体验和线下商业模式做进一步融合。 据业内人士透露:淘宝Vision未来旗舰店首家概念店已经在阿里巴巴总部试运行,首批展示了小米SU7虚拟试车、智能家居等场景,接受邀约制体验。” 他还表示:淘宝最新的3D人工智能数字人也会亮相,主要应用于电商导购场景,首

  • 智能体时代,还得看豆包大模型

    火山引擎,又有大动作了。 2025年6月11日,火山引擎Force原动力大会发布豆包大模型1.6、视频生成模型Seedance1.0pro等重磅新模型,以及迭代了一站式AI云原生全栈服务。 对此,字节跳动CEO梁汝波表示:“做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。未来,字节跳动会坚定长期投入,追求智能突破,服务产业应用。通过火山引擎,持续把新模型、新�

  • 一场文心大模型的「AI马拉松」

    对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年,模型能力的重要性依然无需多言。 从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。 从后训练的角度来看,强化学习新范式正�

  • 谷歌“坟场”再添一员:将于 12 月关闭 Instant Apps!

    2017 年首次推出的 Instant Apps 功能将于 2025 年 12 月正式退役。届时,用户只能回归“老老实实用网页”的生活方式了……

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • AI日报: ChatGPT免费开放记忆功能;华为WATCH 5智能手表接入双大模型;Claude Pro升级重磅功能

    本期AI日报主要报道了多项AI领域重要进展:1)OpenAI向所有ChatGPT用户免费开放记忆功能;2)蚂蚁集团推出"AI健康管家",服务4000万用户;3)Anthropic与DeepLearning.AI合作推出免费MCP课程;4)谷歌DeepMind开发无需3D模型即可生成逼真运动视频的新技术;5)Exa与OpenRouter合作为400+大模型提供实时网络搜索功能;6)中国知网推出CNKI AI学术研究助手;7)Anthropic推出Claude Explains博客项目;8)Claude Pro新增研究模式和远程MCP整合功能;9)Fish Audio发布基于200万小时数据训练的OpenAudio S1语音模型;10)OpenAI升级Codex编程工具;11)华为WATCH5接入盘古和DeepSeek双大模型。