首页 > 业界 > 关键词  > CommonCanvas最新资讯  > 正文

CommonCanvas:一种使用创意共享图片训练开放扩散模型的方法

2023-11-02 10:35 · 稿源:站长之家

核心要点:

  • 研究团队提出了一种使用创意共享图片训练开放扩散模型的方法,以克服高质量数据和版权问题的挑战。

  • 他们使用迁移学习技术创建了合成标题,与精选的创意共享图片匹配,用于训练生成模型,将文字转化为图像。

  • 这一方法大大提高了生成模型的质量,创建了称为CommonCanvas的一组模型,可与SD2相媲美。

站长之家(ChinaZ.com)11月2日 消息:近年来,人工智能在文本到图像生成领域取得了显著进展。将书面描述转化为视觉表现具有广泛的应用,从创作内容到帮助盲人和讲故事。然而,研究人员面临着两个重大障碍,即缺乏高质量数据和从互联网抓取的数据集涉及的版权问题。

为了克服这些问题,一支研究团队提出了一个创新的方法,他们创建了一个创意共享许可(CC)的图像数据集,用于训练开放扩散模型,这些模型可以胜过Stable Diffusion2(SD2)。

image.png

论文地址:https://arxiv.org/pdf/2310.16825.pdf

这个方法有两个主要挑战:首先,高分辨率的CC照片虽然是开放许可的,但它们经常缺乏文本描述,这对于文本到图像生成模型的训练至关重要。

其次,与像LAION这样的大型专有数据集相比,CC照片数量较少,尽管它们是重要的资源。这引发了是否有足够的数据可以有效训练高质量模型的问题。

为了解决这些问题,研究团队采用了迁移学习技术,使用预训练模型创建了出色的合成标题,并将其与精心选择的CC照片相匹配。这种方法利用了模型从照片或其他输入生成文本的能力,通过创建一个照片和虚构标题的数据集,用于训练生成模型,将文字转化为视觉内容。

此外,他们还制定了一种既节约计算资源又高效利用数据的训练方法,以解决第二个挑战。这意味着有足够的CC照片可供训练高质量模型。最终,研究团队培训了多个文本到图像生成模型,这些模型被称为CommonCanvas系列,并在生成质量上媲美SD2。

通过该方法,他们克服了数据集大小的限制和使用人工标题的问题,实现了高质量的图像生成。总之,他们的研究为创意共享图像的利用提供了新方法,为生成模型的进一步发展提供了有力支持。同时,他们还将训练好的CommonCanvas模型、CC照片、人工标题和CommonCatalog数据集免费提供在GitHub上,以鼓励更多的合作和研究。

举报

  • 相关推荐
  • Uber与Checkout.com官宣战略合作伙伴关系,为全球企业平台提供高速可靠支付服务

    英国数字支付服务商Checkout.com与出行平台Uber达成全球战略合作,将为Uber在全球主要市场的网约车及外卖平台提供收单和网关服务。凭借其全球覆盖能力与本地化专长,Checkout.com将助力Uber每日处理数百万笔交易,并通过AI技术优化支付流程,提升交易成功率与安全性。此次合作将强化Uber的全球支付体验,支持其数字出行领域的持续创新。

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • OPPO ColorOS 16正式版11月升级机型公布:支持23款机型

    ColorOS 16正式版11月升级计划公布,涵盖OPPO Find X7/N3系列、一加Ace 5系列等23款机型。系统引入极光引擎、潮汐引擎及自研繁星编译器,显著提升流畅度并降低功耗。新增一键闪记功能,支持复杂图文与超长视频录制。生态互联实现突破,全面打通Apple Watch生态,支持打车、外卖等信息跨设备显示。通过软硬协同优化,为用户打造更流畅持久的操作体验。

  • 快手进军AI Coding,开发工具、模型和Maas平台齐登场

    10月23日,快手StreamLake发布全新AI编程产品矩阵,以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持,KAT-Coder在权威测试中性能超越GPT-5,平台保障99.95%服务可用性。该生态旨在通过技术普惠,为企业与开发者提供颠覆性研发体验,推动AI编程普及。

  • AI日报:Sora免费额度要缩水;月之暗面发布Kimi Linear架构;Canva免费放出Affinity专业设计套件

    本期AI日报聚焦多项技术突破:OpenAI调整Sora免费额度并推出付费计划,标志视频生成进入商业化;Figma收购Weavy推出AI设计工具;OpenAI发布基于GPT-5的安全研究助手Aardvark;全球首款AI字体生成器Dr Fonts上线;中国信通院发布大模型一体机应用报告;月之暗面推出Kimi Linear架构实现推理速度6倍提升;Canva免费发布Affinity设计套件挑战Adobe;Chrome新增Gemini驱动的图像生成与深度搜索功能。

  • OPPO ColorOS 16正式版推送:首批适配11款机型

    ColorOS 16正式版于10月30日启动推送,首批覆盖11款OPPO和一加热门机型。该系统引入极光引擎、潮汐引擎与繁星编译器三大流畅技术,实现感官、性能与底层的全方位提升。极光引擎打造业内首个“无缝隙架构”,确保全场景丝滑交互;潮汐引擎首发芯片级动态追帧技术,系统重载流畅度提升37%,功耗降低13%;繁星编译器首创安卓跨级融合编译技术,大幅提升低算力芯片性能。此次升级将增强品牌市场竞争力,为用户带来更出色的使用体验。

  • 坚定研发 GMCC美芝以原创性技术打造空调好“心脏”

    GMCC美芝15槽10极变频转子式压缩机自2025年投产以来,凭借静音、节能等革命性优势获行业认可。其应用三大原创技术:极致静音技术通过创新结构实现6Hz无异音,噪声较行业标杆再降5dB(A);宽域节能技术采用高效电机及流道优化,低频能效提升2%;高质智能制造技术引入自动化工艺,生产效率提升42%。这些突破彰显美芝作为全球空调压缩机领导品牌的技术实力,推动产业从规模领先迈向技术领先。

  • 斩获G-Mark优良设计奖,RingConn智能戒指凭创新设计与技术实力获国际认可

    中国智能戒指品牌RingConn凭借突破性设计、精准健康监测及卓越用户体验,荣获2025年G-Mark优良设计奖,实现年内连夺iF、IDEA、G-Mark三大国际顶级设计奖项的佳绩。产品以2克超轻机身融合医疗级技术,首创睡眠呼吸暂停监测功能,通过指尖光电容积脉搏波信号实现无感佩戴下的精准健康管理。其人性化设计兼顾12天超长续航与时尚佩戴体验,彰显中国智能穿戴设备在技术创新与实用美学融合领域的国际领先地位。

  • EBC金融集团携手牛津:洞见经济本质实现投资认知突围

    EBC金融集团与牛津大学经济系将于2025年11月11日联合举办第三期“经济学家都干了什么”系列研讨会。本期主题聚焦复杂时代的金融素养培养,旨在帮助投资者建立牛津经济学思维,弥合公众与专家间的认知鸿沟。研讨会将引入“解释-参与-教育”三维框架,结合牛津教授的前沿研究与EBC CEO的实战经验,探讨央行沟通策略及有效经济教育模式,助力提升市场洞察力与决策能力。

  • 特斯拉Cybercab不配备方向盘和踏板 预计2026年二季度下线

    特斯拉CEO马斯克透露,Cybercab无人驾驶出租车将于2026年第二季度量产。该车型颠覆传统设计,无方向盘和踏板,完全依赖FSD全自动驾驶技术,采用纯视觉方案。整车成本预计低于3万美元,配备超大后备箱和鸥翼门,内饰极简仅设中控屏。车辆支持感应充电,专为无人出租场景优化,将推动汽车行业变革。

今日大家都在搜的词: