首页 > 业界 > 关键词  > 成图像最新资讯  > 正文

MIT和Google研究StableRep新技术:使用合成图像训练AI图像模型

2023-11-28 10:08 · 稿源:站长之家

**划重点:**

- 🌐 研究人员提出了一种名为StableRep的新技术,利用由AI生成的图像来训练高度详细的AI图像模型

- 🚀 StableRep通过使用数百万标记的合成图像进行训练,采用“多正对比学习方法”来提高学习过程,将其应用于开源文本到图像模型Stable Diffusion。

- ⚙️ 尽管StableRep在ImageNet分类上取得了显著成就,但其生成图像的速度较慢,同时在文本提示和生成图像之间存在语义不匹配的问题。

站长之家(ChinaZ.com) 11月28日 消息:MIT和Google的研究人员近期开发了一项名为StableRep的新技术,旨在利用由AI生成的图像来训练更加详细和高效的AI图像模型。这项技术被应用于开源文本到图像模型Stable Diffusion,取得了一系列显著的成就。

StableRep采用了一种被称为“多正对比学习方法”的独特方式。在这种方法中,从相同文本提示生成的多个图像被视为彼此的正对比,从而增强了学习过程。例如,对于一个风景的文本提示,模型会将生成的几个风景变化与所有与该风景相关的描述进行交叉引用,以识别基于这些图像的细微差别,并将其应用于最终输出,从而创造出高度详细的图像。

机器人画画 ai画画

研究人员表示,他们的方法在将多个图像视为同一底层事物的表达方面更为出色,而不仅仅是将它们视为像素的集合。实验证明,StableRep在ImageNet分类上取得了76.7%的线性准确度,使用Vision Transformer模型。此外,通过添加语言监督,研究人员发现,StableRep在2000万合成图像上的训练结果超越了使用5000万真实图像训练的CLIP模型。

然而,StableRep并非没有缺陷。其生成图像的速度较慢,同时在文本提示和生成图像之间存在语义不匹配的问题。此外,StableRep的底层模型Stable Diffusion需要在真实数据上进行初始训练,因此使用StableRep生成图像将需要更长时间且成本可能更高。

StableRep已经在GitHub上开源,并可用于商业用途。它采用Apache2.0许可证,用户可以使用并生成衍生作品,但需要在重新分发的作品或衍生作品中提供Apache许可证的副本,并包含对更改的通知。许可证还包括对贡献者不对使用许可作品引起的任何损害负责的责任限制。

MIT和Google的这一研究成果代表着AI图像生成领域的一次创新,尽管存在一些缺陷,但其对于高质量图像的生成提供了新的方法和思路。

举报

  • 相关推荐
  • 双十一必买装备!三星AI电视重构家庭智慧生活新图景

    三星电视以技术创新为核心,在显示技术、AI芯片和生态整合领域持续突破。2025年推出Vision+AI解决方案,通过新一代AI芯片实现画质智能增强、音效自适应优化,支持4K/120帧高端内容。搭载SmartThings智能家居平台,实现设备互联与场景联动,语音助手支持深度语义交互。覆盖影音娱乐、健康运动、艺术创作等多场景,构建全时段沉浸式家庭娱乐中枢,重新定义智慧生活体验。

  • TTi OS行业首发“四图融合”车道级导航

    2025年10月30日,TTi+OS车道级导航正式量产,成为行业首个“四图融合”产品。它基于自研多模态融合引擎,实现高精度导航信息直观呈现与便捷交互,提升出行安全与个性化体验。系统集成SR渲染、环境重构等四大功能,实时识别车道位置,通过直觉式交互引导路径,帮助复杂路况操作。依托高算力平台,可视化呈现动态风险与辅助驾驶信息,增强行车安全。产品融入解压游戏、地标建筑等娱乐化设计,兼具趣味性。目前该导航已搭载于深蓝L06车型,标志量产落地,未来将持续优化AI座舱体验,引领智能汽车科技进化。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 卖家精灵AI实战大会落幕,现场首发中国跨境电商产业带地图报告!(附报告下载)

    《2025中国跨境电商+产业带地图数据报告》正式发布,该报告由卖家精灵联合出品,覆盖全国300多个地级市产业带,绘制了完整的产业数字版图。在2025GGE出海博览会期间,卖家精灵同步举办AI实战大会,现场发布报告并展示AI选品、智能运营等解决方案,吸引超2000名卖家参与。报告结合AI工具,帮助卖家精准匹配产业带资源,实现高效出海闭环,获得行业广泛关注。

  • 卖家精灵AI实战大会圆满落幕!重磅发布2025跨境电商产业带地图报告(附下载)

    《2025中国跨境电商+产业带地图数据报告》在深圳GGE出海博览会正式发布。报告覆盖全国300多个地级市产业带,系统呈现产业分布、优势与跨境机遇。同期举办的"进化·增长|2026跨境电商AI实战大会"吸引4.6万+人次观看,卖家精灵通过河南许昌假发品类等案例,展示AI在市场洞察、选品分析、风险排查等环节的落地应用。现场还设有1F51-54展位提供实操咨询,其跨境掘金指南获展会官方颁奖。报告现可通过卖家精灵官网免费领取完整版PDF。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • 有AI就有无限可能,灰豚AI发布新一代GEO系统

    11月1日,灰豚AI发布新一代GEO系统,突破传统仅支持文本内容优化的局限,全面支持国内短视频平台作品优化,实现近乎零算力成本。该技术被视作行业重大创新,是当前国内GEO源头厂商的重要突破。系统通过AI训练提升企业在生成式搜索中的品牌影响力,助力企业获得竞争优势。未来电商将从平台化转向AI化,灰豚GEO系统支持多种合作模式,让企业以业务增长为导向,抢占AI市场先机。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • 升级版“蓝心小V”亮相,豆包大模型助力vivo打造AI原生体验

    vivo发布全新OriginOS 6系统,升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同,实现精准意图识别与多模态交互,支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合,提供低延迟、高情感语音响应。同时拓展无障碍服务,为视障用户提供实时视觉辅助。未来将持续深化AI生态建设,打造更智能便捷的原生体验。

今日大家都在搜的词: