数据集生成模型DatasetDM：可生成准确的感知注释

2023-08-16 10:31 · 稿源：站长之家

站长之家（ChinaZ.com）8月16日消息:DatasetDM 是一个通用的数据集生成模型，能够产生多样化的合成图像以及相应的高质量感知注释，包括分割掩码、深度估计和人体姿态估计等。

项目地址:https://weijiawu.github.io/DatasetDM_page/

该模型基于预训练的扩散模型，并将文本引导图像合成扩展到感知数据生成领域。通过解码扩散模型的丰富潜在编码，可以有效地生成准确的感知注释。训练该解码器只需要少于1%（大约100张图像）的手动标注图像，从而实现无限大的注释数据集生成。生成的合成数据可用于训练各种感知模型进行下游任务。

核心功能:

1. 生成多样化的合成图像:DatasetDM 利用 GPT-4等大型语言模型产生无限多样的引导语句，从而生成多样化的合成图像。

2. 高质量感知注释生成:利用训练好的解码器模块，DatasetDM 能够将扩散模型的潜在编码准确解码为感知注释，如分割掩码、深度估计等。

3. 多任务支持:DatasetDM 支持多个下游任务，包括语义分割、实例分割、人体姿态估计和深度估计等，为不同任务提供统一的数据生成和感知注释。

4. 高效的数据集生成:通过使用合成数据，DatasetDM 大大减少了数据采集和标注的时间成本，能够快速生成大规模的高质量感知数据集。

5. 强大的性能:DatasetDM 在语义分割和实例分割等任务上取得了最先进的结果，并且在领域泛化和零样本分割等方面表现出较强的鲁棒性和灵活性。

6. 可扩展的应用:DatasetDM 可以灵活应用于图像编辑等新领域和任务，为用户提供更多的创造力和应用场景。

（举报）

相关推荐

关键词：

DatasetDM

Stability AI发布AI音乐生成工具“Stable Audio” 可生成长达90S音乐

伦敦初创公司StabilityAI发布了一款名为StableAudio的AI音乐生成工具，标志着音乐创作领域再次迎来了创新。StableAudio采用了一种称为潜在扩散的技术，据称可以生成高质量、商业可用的音乐。StabilityAI表示，他们正在积极采取措施来确保内容的真实性，包括在图像模型中实施水印技术，以便用户和平台可以识别通过其托管服务生成的AI辅助内容。

StabilityAI StableAudio AI头条
EmoPP模型开源：一款基于情感感知的韵律短语生成模型

EmoPP-Demo是一款基于情感感知的韵律短语生成模型，旨在提高端到端文本转语音的自然度和可懂度。自然语音中存在着语言和情感韵律。EmoPP-Demo是情感感知韵律短语生成的先进工具，可用于提高文本到语音合成系统的情感表达能力，为语音交互和语音助手等应用提供更加自然和生动的语音输出。

EmoPP
智源开源中英文语义向量模型训练数据集MTP

智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP。这是全球最大的中、英文文本对训练数据集，数据规模达3亿对，希望推动解决中文模型训练数据集缺乏问题。作为中国大模型开源生态圈的代表机构，智源持续进行包括数据在内的大模型全栈技术开源，推动人工智能协同创新。
B站新专利可生成有声弹幕

天眼查App显示，9月19日，B站关联公司上海幻电信息科技有限公司申请的“有声弹幕生成、播放方法和系统”专利公布。专利摘要显示，该申请提供了一种有声弹幕生成、播放方法、系统、计算机设备及计算机可读存储介质，方法包括:获取基于预置的虚拟乐器输入的第一音频数据，根据第一音频数据生成有声弹幕数据，播放有声弹幕。通过该专利，用户可以在观看视频或浏览页面内容时，输入个性化的有声弹幕，形成有声评论，在其他用户播放视频时进行输出，达到播放有声弹幕的效果。
创新型生成模型CityDreamer：一键生成无边界的3D城市

关于3D自然场景生成的研究已经很多，但对于3D城市生成的研究相对较少。这是因为在城市环境中，人们对结构扭曲更加敏感生成3D城市比生成3D自然场景更为复杂。这一技术的应用前景非常广阔，将在游戏、城市规划、虚拟现实等领域发挥关键作用。

CityDreamer AI头条
T2I扩散模型PIXART-α：图像生成质量媲美Stable Diffusion

文本到图像生成模型如DALLE2、Imagen和StableDiffusion的发展，开启了逼真图像合成的新时代。这不仅对图片编辑、视频制作、3D素材创建等领域产生了深远影响为研究社区和企业提供了许多下游应用的机会。控制功能:PIXART-α还提供了控制功能，允许用户生成定制图像，精确修改物体颜色等，以满足特定需求。

PIXART-α 扩散模型 AI头条
Auctoria利用生成AI创建3D视频游戏模型

波兰虚拟现实游戏开发公司CarbonStudio的联合创始人AleksanderCaban多年前观察到现代游戏设计中存在一个重要问题:手动创建视频游戏环境中的基本元素，如岩石、山丘、路径等，通常是耗时且繁琐的过程。为了解决这个问题，Caban决定开发技术来自动化这个过程。我们的团队两年前开始开发这个工具，使我们能够拥有一个可供使用的产品。

Auctoria AI视频
荐秒懂生成式AI—大语言模型是如何生成内容的？

备受关注的大语言模型，核心是自然语言的理解与文本内容的生成，对于此，你是否好奇过它们究竟是如何理解自然语言并生成内容的，其工作原理又是什么呢?要想了解这个，我们就不得不先跳出大语言模型的领域，来到机器翻译这里。传统的机器翻译方式是采用RNN循环神经网络。以上就是大语言模型的工作原理了，强大Transformer的实用性还不止于在自然语言处理领域，包括�

生成式AI
LayoutNUWA：一个基于大型语言模型的布局生成工具

在网上创建引人注目的设计对于吸引用户的兴趣和帮助他们理解信息非常重要。这种新方法，被称为LayoutNUWA，通过使用语言模型将编码指令转化为出色的布局，使这些设计更加智能。通过这些核心功能，LayoutNUWA为用户提供了一个强大的布局生成工具，可以应用于各种项目和领域，从提高布局生成的效率和质量。

LayoutNUWA
微软OneDrive 3.0公布：Copilot加持无需打开文件即可生成摘要

之前的一段时间，微软OneDrive已经很久没有什么大的更新了。微软正式公布了OneDrive3.0，带来了诸多的功能改进和一些设计。至于重头戏CopilotAI生成式人工智能功能，微软计划在今年12月向客户推送添加，方便整理云端文件、处理查找所需要的文件，甚至无需打开文件就能生成文件摘要。

今日大家都在搜的词：

热文

3 天
7天

数据集生成模型DatasetDM：可生成准确的感知注释

Stability AI发布AI音乐生成工具“Stable Audio” 可生成长达90S音乐

EmoPP模型开源：一款基于情感感知的韵律短语生成模型

智源开源中英文语义向量模型训练数据集MTP

B站新专利可生成有声弹幕

创新型生成模型CityDreamer：一键生成无边界的3D城市

T2I扩散模型PIXART-α：图像生成质量媲美Stable Diffusion

Auctoria利用生成AI创建3D视频游戏模型

荐秒懂生成式AI—大语言模型是如何生成内容的？

LayoutNUWA：一个基于大型语言模型的布局生成工具

微软OneDrive 3.0公布：Copilot加持无需打开文件即可生成摘要

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

特斯拉股东批准马斯克万亿美元薪酬包

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

站长商机