DeepMind发布自监督扩散模型SODA

2023-12-01 11:55 · 稿源：站长之家

站长之家（ChinaZ.com）12月1日消息:Google DeepMind昨天发布的一项研究展示了一项引人注目的技术，尽管其中的技术细节可能需要深入理解，但总体来说，通过一系列操作，可以以无监督的方式精准控制扩散模型，从而实现风格和内容的分离，以及合成物品的3D视图等功能。

论文地址:https://soda-diffusion.github.io/

这项研究介绍了一种名为SODA的自监督扩散模型，专门用于表示学习。该模型包括一个图像编码器，通过将源视图提炼成紧凑的表示，来引导生成相关的新颖视图。通过在编码器和去噪解码器之间施加严格的瓶颈，并以新颖的视图合成作为自监督目标，这项技术将扩散模型转变为强大的表示学习器，能够以无监督的方式捕获视觉语义。

该模型由一个图像编码器和一个去噪解码器组成，编码器将输入视图转换为低维潜在表示，然后引导去噪解码器进行生成。论文详细描述了编码器的架构设计、新视角生成的机制，以及为了培养强大有意义的表示而开发的优化技术。

通过一系列定量和定性实验，作者展示了SODA在多个数据集上的强大表示和生成能力。这些实验涉及线性探测分类、图像重建、新视角合成，以及解混杂和可控性的评估。

SODA不仅在图像生成方面表现出色，而且能够学习强大的语义表示。未来，这种方法或许可以应用到动态组合场景中。这项研究为深度学习领域的发展提供了新的思路和可能性。

（举报）

相关推荐
大家在看

关键词：

SODA

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐「有效上下文」提升20倍！DeepMind发布ReadAgent框架

【新智元导读】模仿人类阅读过程，先分段摘要再回忆，谷歌新框架ReadAgent在三个长文档阅读理解数据集上取得了更强的性能，有效上下文提升了3-20倍。基于Transformer的大语言模型具有很强的语言理解能力，但LLM一次能够读取的文本量仍然受到极大限制。还可以看到ReadAgentS大大优于ReadAgent-P，性能改进的代价是检索阶段的请求数量增加了六倍。

DeepMind ReadAgent
DeepMind发布Gecko:专注于文档检索性能媲美大7倍模型

谷歌DeepMind发布了一种名为Gecko的文本嵌入模型，专注于文档检索、语义相似度和分类等多种任务。文本嵌入模型在自然语言处理中扮演着重要角色，通过将文本转换为高维向量空间中的向量表示，实现捕捉文本的语义信息。Gecko的出现为改善信息检索系统提供了一种强大的替代方案，同时在分类、STS和摘要方面也达到了新的SOTA水平。

Gecko DeepMind AI头条
谷歌整合 AI 重心，DeepMind 和研究团队合并

谷歌在周四宣布将整合旗下专注于构建人工智能模型的两个内部团队。Alphabet和谷歌CEO桑达尔・皮查伊在公司网站上发布了一篇博客文章，解释了将AI模型构建团队整合到谷歌DeepMind团队内的决定，其中包括来自公司研究部门的团队。公司还将其他责任团队划归到其中央信任与安全团队，公司正在加大对AI测试和评估的投资。

DeepMind AI头条
荐DeepMind终结大模型幻觉？标注事实比人类靠谱、还便宜20倍，全开源

DeepMind这篇论文一出，人类标注者的饭碗也要被砸了吗?大模型的幻觉终于要终结了?今日，社媒平台reddit上的一则帖子引起网友热议。帖子讨论的是谷歌DeepMind昨日提交的一篇论文《Long-formfactualityinlargelanguagemodels》，文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说，大语言模型幻觉不再是问题了。更多技术细节和实验结果请参阅原论文。

DeepMind 大模型
微软任命前 DeepMind 专家负责伦敦人工智能中心

站长之家（ChinaZ.com）4月9日消息:微软宣布在伦敦开设一个以前 Google DeepMind 研究人员领导的人工智能研究和开发中心。该中心将专注于推动这家软件巨头不断增长的机器学习工具组合。微软与 OpenAI 的长期合作已将人工智能整合到各种产品中，包括 Windows、Bing、Github 和 Office365。微软已经投入数十亿美元支持 OpenAI 模型的发展，但据报道，将这些投资转化为盈利仍面临困难，例�

微软 DeepMind AI头条
谷歌DeepMind CEO哈萨比斯因人工智能贡献获英国爵士爵位

英国政府最近宣布，谷歌旗下人工智能子公司DeepMind的首席执行官兼创始人之一德米斯·哈萨比斯因其在人工智能领域的杰出贡献被授予爵士爵位。此举反映了英国对人工智能发展的重视，并表彰了哈萨比斯在推动人工智能技术进步方面所做的努力。随着人工智能在全球范围内的迅速发展，英国政府希望将自己置于该领域的前沿，并表彰那些在推动人工智能技术发展方面做出卓越贡献的人士。

人工智能 DeepMind 英国政府
DeepMind CEO称谷歌将在 AI 领域投入超过 1000 亿美元

谷歌的AI业务负责人表示，该公司将在未来投入超过1000亿美元开发人工智能技术，这是硅谷正在进行的投资竞赛的又一迹象。在温哥华举行的TED大会上，谷歌DeepMind首席执行官DemisHassabis被问及有关微软公司和OpenAI正在规划的一台名为“星门”的潜在价值1000亿美元的超级计算机的问题。”OpenAI的ChatGPT引发的全球兴趣表明，公众已经准备接受人工智能系统，即使这些系统仍然存在缺陷和错误。

DeepMind 谷歌AI AI头条
DeepMind首发游戏AI智能体SIMA！只用自然语言就能玩转「山羊模拟器」

【新智元导读】AI在学会工作之后，终于也能和人一样玩游戏了!DeepMind的SIMA是一个可以感知和理解各种环境的AI代理，能够在多种视频游戏设置中执行任务，未来甚至可能可以与任何虚拟环境进行互动。谷歌DeepMind在AI和游戏方面有着悠久的历史。SIMA只是刚刚开始，我们可以期待在更多的训练环境中继续建立SIMA，并整合更有能力的模型，让它变得更具泛化性和多功能性不仅仅局限于游戏。

DeepMind SIMA
谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

谷歌DeepMind的研究团队发布了一项新研究，介绍了一种名为“Search-AugmentedFactualityEvaluator”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实，并利用谷歌搜索结果来确定每个声明的准确性。我们才能评估自动事实检查对打击错误信息的实际影响。

DeepMind AI系统 AI头条
防范“AI换脸”风险！蚂蚁数科正式发布ZOLOZ Deeper

随着生成式AI技术的发展，Deepfake已成为一种新型的网络犯罪手段，给数字世界的安全带来了严峻挑战。蚂蚁数科旗下生物识别品牌ZOLOZ近日正式发布了针对Deepfake的综合防控产品ZOLOZDeeper。为进一步完善ZOLOZDeeper，蚂蚁集团还通过"蚂蚁集团安全响应中心"官网，设立了超百万的奖金池，鼓励"安全极客"参与漏洞挖掘，助力产品不断优化升级。

ChatX App:一个强大的AI客户端，支持多设备云同步，提升工作和生活效率。

ChatX是一个基于先进AI技术的客户端应用，它通过高速API服务器提供极速体验，支持iPhone、iPad和macOS设备间的云同步。用户可以利用它完成各种AI任务，如文本生成、图片生成等，显著提高工作效率。产品的主要优点包括高速访问、自定义功能、经济的按字数消耗模式以及丰富的高级功能，如AI参数微调、Siri朗读等。ChatX的背景是AI技术的快速发展和用户对于高效、智能工具的需求。目前，产品在Mac App Store上免费提供，但提供App内购买项目。

AI 云同步高速

RAGFlow:开源的基于深度文档理解的RAG（检索增强生成）引擎

RAGFlow是一个开源的RAG（Retrieval-Augmented Generation）引擎，基于深度文档理解，提供流线型的RAG工作流程，适用于各种规模的企业。它结合了大型语言模型（LLM）提供真实的问答能力，支持从各种复杂格式数据中引用确凿的引文。

自然语言处理机器学习信息检索

EmojiTell:使用表情组合翻译器，让沟通更有趣且富有表现力。

EmojiTell是一个创新的在线服务，可以将文本翻译成表情组合，增加沟通的趣味性和表现力。它由一支对表情符号充满热情的开发者和设计师团队开发，旨在通过表情符号的力量，让信息传递更加生动和个性化。

表情符号翻译沟通

Perplexica:一个开源的AI驱动搜索引擎，提供深入网络的答案。

Perplexica是一个开源的AI驱动搜索引擎，它不仅搜索网络，还理解您的问题。它使用先进的机器学习算法，如相似性搜索和嵌入，来优化结果，并提供引用来源的清晰答案。使用SearxNG保持最新和完全开源，确保您始终获得最新信息，同时不损害您的隐私。

搜索引擎机器学习人工智能

FaceChain:深度学习工具链，用于生成你的数字孪生体。

FaceChain是一个深度学习工具链，由ModelScope提供支持，能够通过至少1张肖像照片生成你的数字孪生体，并在不同设置中生成个人肖像（支持多种风格）。用户可以通过FaceChain的Python脚本、熟悉的Gradio界面或sd webui来训练数字孪生模型并生成照片。FaceChain的主要优点包括其生成个性化肖像的能力，支持多种风格，以及易于使用的界面。

深度学习数字孪生个性化

Huggingface 镜像站:一个公益项目，致力于帮助国内AI开发者快速、稳定的下载模型、数据集。

HuggingFace镜像站是一个非盈利性项目，旨在为国内的AI开发者提供一个快速且稳定的模型和数据集下载平台。通过优化下载过程，减少因网络问题导致的中断，它极大地提高了开发者的工作效率。该镜像站支持多种下载方式，包括网页直接下载、使用官方命令行工具huggingface-cli、本站开发的hfd下载工具以及通过设置环境变量来实现非侵入式下载。

AI 机器学习数据集

WebLlama:构建能够根据指令浏览网页并和您对话的强大代理

WebLlama是一个基于Meta Llama 3构建的代理，专门为网页导航和对话进行了微调。它旨在构建有效的以人为中心的代理，帮助用户浏览网页，而不是取代用户。该模型在WebLINX基准测试中超越了GPT-4V（零样本）18%，展示了其在网页导航任务中的卓越性能。

网页导航对话代理机器学习

Infra Copilot:利用机器学习自动生成基础设施代码，提高开发效率。

GitHub Copilot for Infrastructure as Code（简称Infra Copilot）是一个利用机器学习技术帮助基础设施专业人员自动生成精确基础设施代码的工具。它通过理解基础设施任务的上下文，允许专业人员使用自然语言表达需求，并接收相应的代码建议。Infra Copilot不仅简化了基础设施即代码（IaC）的开发过程，还确保了跨环境和项目的一致性，加速了新团队成员的上手和学习过程，显著提高了工作效率并节约了时间。

基础设施即代码自动化机器学习

LLaVA++:扩展LLaVA模型，集成Phi-3和LLaMA-3，提升视觉与语言模型的交互能力。

LLaVA++是一个开源项目，旨在通过集成Phi-3和LLaMA-3模型来扩展LLaVA模型的视觉能力。该项目由Mohamed bin Zayed University of AI (MBZUAI)的研究人员开发，通过结合最新的大型语言模型，增强了模型在遵循指令和学术任务导向数据集上的表现。

人工智能自然语言处理机器学习

PhysDreamer:通过视频生成实现基于物理的3D对象交互

PhysDreamer是一个基于物理的方法，它通过利用视频生成模型学习到的对象动力学先验，为静态3D对象赋予交互式动力学。这种方法允许在缺乏真实物体物理属性数据的情况下，模拟出对新颖交互（如外力或代理操作）的真实反应。PhysDreamer通过用户研究评估合成交互的真实性，推动了更吸引人和真实的虚拟体验的发展。

3D交互视频生成物理模拟

AI快站:专注于提供HuggingFace模型免费加速下载服务的平台

AI快站是一个为AI开发者设计的服务平台，提供HuggingFace模型的免费加速下载，解决大模型下载缓慢和断开的问题，支持高达4M/s的下载速度，大幅减少等待时间，提高开发效率。

HuggingFace模型加速下载断点续传

Llama-3 8B Instruct 262k:一款由Gradient AI团队开发的高性能文本生成模型。

Llama-3 8B Instruct 262k是一款由Gradient AI团队开发的文本生成模型，它扩展了LLama-3 8B的上下文长度至超过160K，展示了SOTA（State of the Art）大型语言模型在学习长文本操作时的潜力。该模型通过适当的调整RoPE theta参数，并结合NTK-aware插值和数据驱动的优化技术，实现了在长文本上的高效学习。此外，它还基于EasyContext Blockwise RingAttention库构建，以支持在高性能硬件上的可扩展和高效训练。

DeepMind发布自监督扩散模型SODA

今日大家都在搜的词：

热文

站长商机