首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

趣AI | 谷歌新AI系统Imagen有点强,输入文本就能生成逼真的图像

2022-05-25 16:07 · 稿源:站长之家

站长之家(ChinaZ.com)5月25日 消息:日前,谷歌宣布推出了一款新的AI系统Imagen,可以将文字描述转化为逼真的图像的人工智能技术。

据报道,Imagen可以创建比OpenAI的人工智能工具DALL-E2更逼真和逼真的图像,不过谷歌尚未公开Imagen[1]。

如图片所示,Imagen扩散模型可根据用户的书面提示输出绘图、油画、CGI 渲染等。

QQ截图20220525154816.jpg

注:图片来自Imagen官网截图

那么Imagen 是如何工作的?

Google Imagen 官方网站还解释这种人工智能技术的工作原理,首先分析用户输入的文本并使用T5-XXL进行编码。嵌入在 AI 中的文本首先被转换为分辨率为64x64像素的小图像。Imagen进一步利用文本条件超分辨率扩散模型对图像进行64×64的上采样,然后这个图像继续增长并最终形成。

QQ截图20220525154954.jpg

Imagen 的开发者谷歌研究的大脑团队表示,基于变压器和图像扩散模型,Imagen实现了前所未有的真实感。谷歌声称,对比其它模型,在图像保真度和图像-文本匹配方面,人类评估者更喜欢 Imagen。

不过,谷歌也表示,Imagen 是在从网络上抓取的数据集上进行训练的,虽然已经过滤了很多不良内容如色情图像、污秽语言等,但仍有大量不当的内容数据集,因此也会存在种族主义诽谤和有害的社会刻板印象。

谷歌指出,在生成事件、物体和活动的图像时,Imagen会编码“社会和文化偏见”。由于这些原因以及更多原因,谷歌没有公开发布 Imagen。

案例.jpg

案例2.jpg

注:图片均来自imagen官网截图

图片示例中,imagen会根据用户选中不同的关键词生成不同形象

[1]1https://imagen.research.google/

举报

  • 相关推荐
  • 通付盾AI Agent信任系统建设宣言:从AI到IA,得Agent者得天下

    深耕行业十四年,知浪潮将至,当相向行。本文旨在结合企业思考,探讨AI新时代下的技术与应用趋势,对内秉初心以率众,对外纳灼见求臻。分布式商业和分布式智能也将因小模型的发展大放异彩。

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • AI日报:OpenAI新图像生成模型可一句话P;可灵AI营收超1亿;谷歌上线最强推理大模型Gemini 2.5

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI推出全新图像生成模型,挑战Google一句话P图OpenAI最近推出了其最新的GPT-4o模型,集成了先进的图像生成器,展现出显著的图像渲染能力和多样的输入输出支持。宝马的360度全链AI战略将优化生产流程,为智能汽车制造提供保障,计划在2026年量产新车型,赋能AI智能个人助理,带来自然流畅的用户互动体验。

  • 超级Agent如何让AI更“有用”?

    AI助手的最终形态到底是什么样的?从ChatGPT开启的AI聊天机器人,到接入联网能力,再到各种多模态能力的加入。AI助手的能力在以肉眼可见的速度快速迭代。科技的魅力从来不只是炫技,AI的第一个超级应用或许就诞生在那些“有用”的产品之中。

  • AI日报:智谱发布Agent产品AutoGLM沉思;谷歌Gemini 2.5 Pro免费开放使用;ChatGPT原生图像生成功能向免费用户推出

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱发布Agent产品AutoGLM沉思:首个实现边想边干的智能体智谱AI在2025中关村论坛上发布了其最新的Agent产品——AutoGLM沉思。公司致力于推动具身智能技术的发展,特别是在机器人领域的创新,标志着其在全球市场中的竞争力不断增强。

  • 能理解海豚声音!谷歌开发全AI模型DolphinGemma

    快科技4月15日消息,谷歌公布了一款名为DolphinGemma”的大型语言模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。研究人员预计在未来几个月内测试DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)发声系统,以探索是否能够翻译并模仿海豚的声音,进而实现与海豚的某种对话”。海豚是地球上最聪明且最善于沟通的动物之一,其社交互动极其复杂�

  • UniToken:多模态AI的“全能选手”,一次编码搞定文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • Voice Agent 开源框架 TEN,让你的 AI Agent 能听能说!

    搭建VoiceAgent就像是把大象装进冰箱,看上去只有三步很简单:1)选择LLM/STT/TTS大模型2)接入WebRTC或WebSockets进行实时传输3)调整参数封装但在实际使用过程中,却困难重重:“😫回声太大、噪音太多”、“人声太杂听不清👂”“人工智能如智障,说话都不能打断🤐”“延迟太高反应慢🐢”、“又有新模型了又要重新接😞”“三段式看着简单实现的工程太难💻”“多模态数据�

  • AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

    谷歌在GoogleCloudNext25大会上,开源了首个标准智能体交互协议——Agent2AgentProtocol。A2A将彻底打破系统孤岛,对智能体的能力、跨平台、执行效率产生质的改变,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企业应用平台。通过A2A协议,MongoDB可以使其数据库服务与智能Agent相结合,实现更高效的数据管理和自动化数据处理。

  • 醒醒,只靠MCP和A2A还带不来AI Agent的大繁荣

    文章探讨了AI Agents发展需要类似HTTPS的安全协议保障。回顾互联网发展历程,TCP/IP协议统一了网络通信标准,HTTP协议实现了全球互联,而HTTPS通过SSL加密解决了安全问题。类比互联网发展,当前AI Agents产业面临类似挑战:Anthropic推出的MCP协议解决智能体与工具连接问题,Google的A2A协议实现智能体间协作,但缺乏安全标准。IIFAA联盟正致力于构建AI Agents安全生态,推出ASL中间件保障数据隐私和身份认证。文章指出,正如HTTPS推动电商繁荣,AI Agents的安全标准化将加速商业化进程,蚂蚁集团等企业已开始实践MCP应用。未来AI Agents可能通过统一入口调用工具池,改变现有交互模式。