谷歌Gemini重磅更新：直接选用Imagen生成图像

2025-07-24 09:32 · 来源： AIbase基地

近日，谷歌对其 AI 服务 Gemini 进行了重要升级，用户现在可以直接在 Gemini 界面中选择 Imagen 模型来生成高质量的图像。这一更新不仅提升了用户体验，还为开发者提供了更多的灵活性和便捷性。

在此次更新中，谷歌还启用了 llms.txt 文件，旨在为 AI Agent 提供最新的 API 和 SDK 使用方法。这一机器可读文档遵循 MCP（Model-Consumable Patois）规范，使开发者能够轻松获取最佳实践，进而更高效地构建应用。

谷歌大模型Gemini

具体而言，用户在 Gemini 的界面中，可以轻松找到并选择 Imagen 模型，这一模型以其强大的图像生成能力而闻名。此外，开发者们可以通过访问 Google 的 API 文档网站（ai.google.dev）获取到 llms.txt 文件，确保他们的 AI Agent 总是使用最新的技术规范。

这种便捷的访问方式，不仅有助于加速开发流程，还能提升 AI 应用的整体性能。通过结合 Gemini CLI 的扩展功能，开发者能够更全面地利用这一新特性，快速实现自己的创意和项目。

这次 Gemini 的更新，不仅让图像生成变得更为简单直接，也为开发者们提供了强有力的工具，帮助他们在快速变化的 AI 领域中保持竞争力。随着 AI 技术的不断发展，我们期待看到更多创新和可能性。

相关推荐

荐AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜和AI录音笔；谷歌发布Gemini 2.5 Flash-Lite 稳定版

本文介绍了AI领域多项重要进展：1)谷歌发布Gemini 2.5 Flash-Lite稳定版，平衡速度与成本；2)腾讯混元ASR语音大模型接入ima平台；3)阿里开源Qwen3-Coder编程大模型；4)360将推智能眼镜和AI录音笔；5)夸克健康大模型通过医师评测；6)零一万物发布企业级大模型平台；7)Hedra推出低成本AI视频代理；8)Gemini2.5革新图像理解能力；9)Meta推出创新文本处理模型AU-Nets；10)苹果AI团队或寻求第三方合

谷歌 Gemini 2.5
ZEGO AI Agent：支持一张图生成数字人

即构科技推出AI Agent2.4，用户只需上传一张正面照即可生成1080P高清数字人，支持实时互动对话。该技术具备400ms超低延迟、2秒内完成自然交互响应，唇形同步准确，支持文本/音频/语音流驱动。适用于教育、客服等场景，提供API灵活定制，实现低成本批量生成。核心技术融合照片驱动与实时AI交互引擎，在生成效率、拟真度方面显著提升，带来低门槛、高沉浸的数字人互动体验。
全球优质AI语音大模型盘点：Whisper、Gemini Speech

本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括：OpenAI Whisper（多语言识别与翻译）、Google Gemini（情感化语音生成）、Meta AudioCraft（音乐创作与风格转换）。国内讯飞星火（方言识别）、阿里通义（电商客服）、百度文心（车载场景）表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

AI语音大模型语音交互技术多语言识别
曝特斯拉Gen3机器人明年入华量产：普通人也能买

特斯拉第三代Optimus人形机器人已在美国工厂开始实测，预计2025年面向中国消费市场推出，2026年实现量产，5年内计划年产能达100万台。相比前两代，第二代产品减重10公斤，行走速度提升30%，手部自由度增至22个，新增颈部活动能力。第三代将重点提升执行复杂任务能力，如叠衣服、照顾小孩等。特斯拉计划2025年生产1-1.2万台零部件，2026年量产10万台，2027年提升至50万台。中国市场规模预计2030年突破千亿元，全球市场2035年有望达1.12万亿元。

特斯拉机器人 Optimus人形机器人机器人工业应用
最强Agent？3分钟看懂Kimi K2真的好用吗？

Moonshot AI于2025年7月11日发布开源大模型Kimi K2，主打代码编写、数学推理和Agent工具调用功能。该模型采用MoE架构（1T参数，激活32B），在SWE-Bench等测试中表现优异，数学推理得分达97.4。支持128k上下文、工具调用和API集成，定价为输入4元/百万tokens、输出16元/百万tokens。相比闭源模型，Kimi K2具有开源免费、成本低等优势，适合开发者和企业使用。同时推荐AIbase平台，可系统比较�
MasterAgent颠覆性上线：一键式生成智能体集群，分钟级构建专属AI协作网络

全球首个L4+级智能体母系统MasterAgent在深圳发布，标志着AI从"被动执行工具"升级为能主动思考、跨界解决问题的"数字伙伴"。该系统突破性实现三大功能：一键生成智能体集群、多智能体自主协作、灵活定制优化。核心技术突破包括动态Agent生成框架将开发周期压缩至分钟级，以及去中心化多智能体协同机制，支持数百个智能体像"数字团队"一样高效协作。由深圳深元人工智能科技自主研发，其团队依托中国科学技术大学专家资源，已快速成长为国家级高新技术企业。这一突破让AI真正成为能创造实际价值的"新生产力单元"。
荐A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人平台启动封测；京东重磅开源JoyAgent-JDGenie

AI日报栏目精选了人工智能领域最新动态：1)Stability AI推出0.7秒单图3D重建模型SPAR3D；2)GitHub热门开源AI协作框架CrewAI获3.4万星；3)马斯克发布儿童AI聊天机器人Baby Grok引发安全争议；4)ComfyUI-C opilot工具简化AI工作流创建；5)CNNIC报告显示我国346款生成式AI完成备案；6)提示词管理工具AI Gist上线；7)开源语言学习工具WordPecker支持多语言学习；8)斯坦福推出多工具协作AI Agent OctoTools；9)Ope
荐A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布ChatGPT Agent；Suno推人声替换功能

【AI日报】汇总了近期AI领域重要进展：1)月之暗面推出Kimi Playground平台，实现从对话助手到智能助理的转变；2)OpenAI发布ChatGPT Agent，支持自主执行浏览、购物等任务；3)Suno发布v4.5+版本，新增人声替换等音乐创作功能；4)谷歌Veo3视频生成模型上线，支持文本转视频；5)全球首个直播流扩散模型MirageLSD发布，实现实时视频转换；6)VSCode编程助手Traycer提升大型代码库处理效率；7)ART框架支持Python一键训练AI Agent；8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低；9)Mistral AI推出Le Chat挑战ChatGPT；10)百度小度上线首个支持物理交互的MCP Server；11)Lightricks的LTXV模型实现60秒高质量视频生成；12)开源模型LTX-Video13B支持30倍速高清视频生成。
专为企业打造的智能体中台来了！迈富时AI-Agentforce 2.0让Agent正式走向工作岗位

Gartner预测到2028年，15%的日常工作决策将由自主智能代理完成。迈富时最新发布的AI-Agentforce2.0作为企业级智能体中台，采用"技术赋能+场景落地"双轴驱动模式，重新定义企业智能化转型路径。该平台通过"模型-应用-开发平台"三位一体架构，提供从底层能力到上层应用的完整闭环，包含五大技术模块：模型管理、知识引擎、工具生态、流程编排和企业级基座。相比传统开发方式，该平台将Agent开发周期从3-6个月缩短至2分钟-2周，并已在金融、零售、供应链等行业实现规模化落地，典型应用包括智能导购、财务审批等场景。
领先OpenAI三个月，百度文库GenFlow领跑通用Agent领域，2.0版本8月上线

百度文库即将在8月发布GenFlow2.0版本，该版本具备更强大的多模态能力，支持生成多种内容形态，大幅缩短任务交付时间。相比OpenAI同日发布的ChatGPT+Agent，百度文库早在4月就已上线GenFlow1.0，实现全场景覆盖和全链路调度。GenFlow基于MoE架构，在成本、性能和效率上占优，能快速生成PPT、研报等多样化内容，且依托百度14亿专业文档资源，内容质量更可靠。此外，GenFlow还能调用用户个人数据实现个性化定制，并提供内容后期编辑功能，灵活性更高。

今日大家都在搜的词：

热文

3 天
7天

谷歌Gemini重磅更新：直接选用Imagen生成图像

荐AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜和AI录音笔；谷歌发布Gemini 2.5 Flash-Lite 稳定版

ZEGO AI Agent：支持一张图生成数字人

全球优质AI语音大模型盘点：Whisper、Gemini Speech

曝特斯拉Gen3机器人明年入华量产：普通人也能买

最强Agent？3分钟看懂Kimi K2真的好用吗？

MasterAgent颠覆性上线：一键式生成智能体集群，分钟级构建专属AI协作网络

荐A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人平台启动封测；京东重磅开源JoyAgent-JDGenie

荐A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布ChatGPT Agent；Suno推人声替换功能

专为企业打造的智能体中台来了！迈富时AI-Agentforce 2.0让Agent正式走向工作岗位

领先OpenAI三个月，百度文库GenFlow领跑通用Agent领域，2.0版本8月上线

今日大家都在搜的词：

热文

苹果发布首个iOS 26公测版液态玻璃设计引发热议

AI日报：扣子空间网页设计功能上线；阿里Wan 2.2即将上线；O

REDMI Pad 2将于8月1日开售：2.5K屏+9000mAh电池

陶琳称特斯拉不关注排名：回应懂车帝辅助驾驶测试第一

华为Pura 80数字版维修备件价格出炉：换屏849元

华为鸿蒙HarmonyOS 5.1官宣7月31日开启升级：覆盖30多款设备

马斯克正式进军餐饮业特斯拉首家超级充电站餐厅开业

微信能自动发消息了！微信新增自动发送消息功能

苹果发布首个iOS 26公测版液态玻璃设计引发热议

特斯拉餐厅6小时狂赚4.7万美元马斯克正式进军餐饮业

A日报：Trae 2.0 正式升级 SOLO 模式；通义发布Qwen3新模型；智

AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜

小米REDMI首部短剧《时空合伙人》收官雷军“声音”亮相成惊喜

全球第一网红野兽先生计划中国行比甲亢哥更火

AI日报：字节发布同声传译模型Seed LiveInterpret 2.0；秘塔搜

站长商机