趣AI | 谷歌新AI系统Imagen有点强，输入文本就能生成逼真的图像

2022-05-25 16:07 · 稿源：站长之家

站长之家（ChinaZ.com）5月25日消息:日前，谷歌宣布推出了一款新的AI系统Imagen，可以将文字描述转化为逼真的图像的人工智能技术。

据报道，Imagen可以创建比OpenAI的人工智能工具DALL-E2更逼真和逼真的图像，不过谷歌尚未公开Imagen[1]。

如图片所示，Imagen扩散模型可根据用户的书面提示输出绘图、油画、CGI 渲染等。

QQ截图20220525154816.jpg

注:图片来自Imagen官网截图

那么Imagen 是如何工作的?

Google Imagen 官方网站还解释这种人工智能技术的工作原理，首先分析用户输入的文本并使用T5-XXL进行编码。嵌入在 AI 中的文本首先被转换为分辨率为64x64像素的小图像。Imagen进一步利用文本条件超分辨率扩散模型对图像进行64×64的上采样，然后这个图像继续增长并最终形成。

QQ截图20220525154954.jpg

Imagen 的开发者谷歌研究的大脑团队表示，基于变压器和图像扩散模型，Imagen实现了前所未有的真实感。谷歌声称，对比其它模型，在图像保真度和图像-文本匹配方面，人类评估者更喜欢 Imagen。

不过，谷歌也表示，Imagen 是在从网络上抓取的数据集上进行训练的，虽然已经过滤了很多不良内容如色情图像、污秽语言等，但仍有大量不当的内容数据集，因此也会存在种族主义诽谤和有害的社会刻板印象。

谷歌指出，在生成事件、物体和活动的图像时，Imagen会编码“社会和文化偏见”。由于这些原因以及更多原因，谷歌没有公开发布 Imagen。

案例.jpg

案例2.jpg

注：图片均来自imagen官网截图

图片示例中，imagen会根据用户选中不同的关键词生成不同形象

[1]1https://imagen.research.google/

（举报）

相关推荐

关键词：

荐Agent真的卷疯了，AI办公Agent也来了。

我一直说，每个行业，都一定会有专门优化的垂直领域的Agent。你看，通用Agent的王座上有Manus，研究类的有DeepResearch，旅游有飞猪问一问，设计类有Lovart。那现在，办公领域的Agent也来了。专为办公打造。这玩意就是昆仑万维的Skywork Super Agents。

数字生命办公领域 Skywork
发布AI Agent开发平台，做强AI生态… 网易数智接下来这么干

AI时代正从AIGC转向AI Agent发展。微软CEO纳德拉预测AI Agent将成为新应用，Gartner预计到2028年超1/3企业软件将集成AI Agent功能。网易数智发布CoreAgent智能体开发平台及多款行业智能体，助力企业快速落地AI应用。文章指出当前AI Agent面临技术门槛高、场景适配难等挑战，网易提出"技术共生、市场共拓、利润共享"的生态协同理念，强调AI需要与行业know-how结合才能创造真实价值。网易数智宣布品牌升级，从"科技蓝"变为"网易红"，展现拥抱AI时代的决心。

AI Agent 数字员工
谷歌推出 Beam AI：将普通视频通话，转为逼真的 3D 沉浸式体验

一位测试用户表示： “你甚至会忘记自己是在用科技交流。眼神是真实的，你能看出对方什么时候想说话，就像现实生活中一样。”

谷歌BeamAI BeamAI 谷歌i/o大会
荐AI日报：DeepSeek开源新版R1-0528；字节发布图像Agent小云雀AI；可灵2.1重磅上线

本期AI日报聚焦多项AI领域突破：1)DeepSeek发布R1-0528模型，支持128K上下文且性能媲美GPT-4；2)字节推出"小云雀AI"图像创作工具；3)可画2.1版本价格降65%性能提升；4)Opera发布全球首款AI浏览器Neon；5)Meta推出多模态空间理解模型；6)北大团队研发ZeroSearch框架降低大模型训练成本88%；7)字节推出AI视频剪辑应用"剪小映"；8)MotionPro实现40ms/帧精准视频控制；9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人；10)OpenAI重组架构为IPO铺路；11)像素蛋糕"方糖大模型"获国内首个影像行业备案；12)Paper2Poster实现论文自动转海报；13)Resemble AI开源TTS模型性能比肩ElevenLabs；14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

人工智能 AI产品技术趋势
荐如何用AI Agent让企业效率翻倍？

2025年5月，红杉资本AI峰会在旧金山落下帷幕。这场汇聚150位全球顶尖AI公司创始人的大会达成重要共识:下一轮AI竞争的核心不再是工具本身，而是为用户创造的实际收益。在此背景下，Agent的重要性被前所未有的推至所有人的视野前沿。硅谷大厂开启了第一波加速，微软CEO纳德拉在主题演讲中宣布:“我们已经进入了AI Agent时代，正在见证AI系统如何以全新方式帮助我们解决问�

AI峰会红杉资本 Agent时代
荐AI日报：阿里开源3D数字人项目MNN TaoAvatar；MiniMax Agent上线；罗永浩数字人直播再探“AI+IP”带货模式

本文汇总了AI领域最新动态：1）阿里开源MNN+TaoAvatar技术，实现手机端3D数字人实时交互；2）MiniMax升级AI工具Agent，新增智能图像搜索和多语言支持；3）罗永浩数字人将登陆百度电商直播；4）OpenAI员工套现近30亿美元，软银成最大接盘方；5）ChatGPT推出深度研究和语音模式升级；6）Meta发布V-JEPA2模型，提升机器人环境适应能力；7）AMD与OpenAI合作推出新一代AI芯片；8）Google Gemini集成Imagen4图像生成模型；9）谷歌AI实现10公里级精准天气预报；10）Gartner预测到2028年80%的AI应用开发时间将缩短50%。

人工智能虚拟现实 3D数字人
如何辨别AI生成的图片文字声音？分享一些小技巧

在人工智能生成内容日益普及的今天，辨别AI生成的图片、文字和声音变得尤为重要。以下是一些实用的技巧，希望能帮到你……

如何辨别AI生成的图片文字声音 AI生成 AI生成内容
对标Sora！谷歌发布AI视频生成器Veo 3：可同时生成视频和音效

谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3，对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频，还能为人物对话、鸟鸣等场景自动匹配音效，实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户，月费249.99美元，并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是，谷歌在AI图像生成领域并非一帆风顺，此前Imagen 3曾因生成含历史错误的图像引发争议。

谷歌视频生成模型 Veo
IBM高管详解如何加速企业AI应用：Agent是路径，不是噱头

IBM在2025 Think大会上提出，企业AI竞争已从实验阶段转向实际应用阶段，关键在于定制化AI解决方案和可量化的业务成果。IBM强调企业级AI Agent需具备"动手能力"，能嵌入业务流程、完成任务并监控维护，而非仅是对话助手。其watsonx平台构建了模型、数据、任务执行的完整技术栈，并通过三层架构（交互层、任务分解层、系统连接层）实现闭环运行。IBM还推出"AgentOps"体系，将智能体模块化、服务化，建立能力目录和监控机制，解决企业部署AI Agent时的系统对接、价值评估和管理难题。实践案例显示，制造业设备巡检Agent可节省70%人力成本。IBM认为AI Agent是企业数字化能力的延伸，需与业务流程深度融合，而非追赶技术潮流。

AI应用企业AI 智能化转型
如何用 AI工具生成论文选题

本教程介绍如何利用DeepSeek AI工具生成学术论文选题。首先需要明确自身专业、研究方向、兴趣领域等研究信息。通过特定格式构建提问指令，在DeepSeek平台输入后，AI会基于算法分析生成10个相关选题。用户需从研究价值、创新性、可行性等维度评估选题，筛选出最适合的研究方向。该工具能有效帮助研究者快速获取选题思路，提高学术论文创作效率。

DeepSeek 论文选题学术研究

热文

3 天
7天

趣AI | 谷歌新AI系统Imagen有点强，输入文本就能生成逼真的图像

荐Agent真的卷疯了，AI办公Agent也来了。

发布AI Agent开发平台，做强AI生态… 网易数智接下来这么干

谷歌推出 Beam AI：将普通视频通话，转为逼真的 3D 沉浸式体验

荐AI日报：DeepSeek开源新版R1-0528；字节发布图像Agent小云雀AI；可灵2.1重磅上线

荐如何用AI Agent让企业效率翻倍？

荐AI日报：阿里开源3D数字人项目MNN TaoAvatar；MiniMax Agent上线；罗永浩数字人直播再探“AI+IP”带货模式

如何辨别AI生成的图片文字声音？分享一些小技巧

对标Sora！谷歌发布AI视频生成器Veo 3：可同时生成视频和音效

IBM高管详解如何加速企业AI应用：Agent是路径，不是噱头

如何用 AI工具生成论文选题

热文

点击已死？“AI引用”才是流量未来，SEO正在被SAO、AEO取代

李世石：AI不会“解读”……直觉依然属于人类！

前OpenAI研究员：有时，ChatGPT为了“自救”，会选择牺牲用户

iOS26的这五大“新功能”，我在安卓机上已经用了好几年！

从心脏、到血管……3D打印开启“器官替换”时代

无缝且安全的密钥导入、导出功能将登陆苹果系统

站长商机