首页 > 原创 > 关键词  > OpenAI最新资讯  > 正文

AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP工具箱;中国占全球AI专利60%

2025-04-24 15:34 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAIChatGPT图像生成功能API:开发者可轻松集成 AI 绘图功能

OpenAI最近推出了gpt-image-1图像生成API,开发者可以将这一先进技术轻松集成到各种应用中。这一功能自上线以来,吸引了大量用户,生成了超过7亿张图像。gpt-image-1不仅支持多种图像风格,还内置安全护栏,确保生成内容符合公司政策。此外,其合理的收费结构使得开发者能够以低成本生成高质量图像,标志着AI图像生成领域的重要进步。

image.png

【AiBase提要:】

🌟 OpenAI推出gpt-image-1图像生成API,开发者可轻松集成到应用中。

🖼️ 用户在新功能上线第一周便生成超过7亿张图像,吸引了数百万新用户。

💰 gpt-image-1的图像生成成本合理,低至每张图像2美分。

2、谷歌 Gemini 月活跃用户突破3.5亿,仍与 ChatGPT 存在差距

谷歌的人工智能聊天机器人Gemini在过去一年中实现了显著的用户增长,月活跃用户数达到了3.5亿,日活跃用户数也从900万增至3500万。然而,与市场领先者ChatGPT的6亿月活跃用户相比,Gemini仍有差距。谷歌通过与三星的合作和产品整合,推动了Gemini的快速增长,显示出用户对AI聊天工具的需求正在上升。未来,谷歌如何进一步提升Gemini的用户体验和功能,将是其能否缩小与竞争对手差距的关键。

【AiBase提要:】

🌟 Gemini的月活跃用户数已达3.5亿,日活跃用户增至3500万。

🤖 ChatGPT的月活跃用户为6亿,仍领先Gemini。

📈 谷歌通过与三星的合作及产品整合,推动Gemini快速增长。

3、OpenAI预测2029年收入激增至1250亿美元

OpenAI近期发布的收入预测显示,到2029年,其总收入预计将达到1250亿美元,其中AI代理业务和渠道收入将成为主要驱动力。2023年,OpenAI的收入达到37亿美元,周活跃用户超过5亿,显示出显著增长。公司预计未来四年将实现现金流转正,毛利润占比将提升至近70%。这一系列预测吸引了投资者的关注,预计将推动OpenAI的快速发展。

【AiBase提要:】

🌟 预计到2029年,OpenAI收入将达1250亿美元,AI代理业务成为主要增长点。

📈2023年收入达37亿美元,周活跃用户超过5亿,显示出显著增长。

💰 预计未来四年将实现现金流转正,毛利润占比将提升至近70%。

4、Ostris发布Flex.2-preview,8B参数扩散模型革新ComfyUI工作流

Ostris团队推出了Flex.2-preview,这是一款基于8亿参数的文本到图像扩散模型,旨在优化ComfyUI工作流。该模型在图像生成的控制能力上表现卓越,支持多种功能如图像修补和深度控制,已在Hugging Face开源,迅速吸引了AI艺术创作社区的关注。Flex.2-preview的轻量化设计与高效推理能力,使其成为创意设计和商业应用中的理想工具,展现了未来AI艺术创作的无限可能。

image.png

【AiBase提要:】

🎨 通用控制支持:内置线条、姿态和深度控制,精确引导生成结果,适合多种创作需求。

🖼️ 图像修补能力:支持高级图像修补,用户可通过掩码进行内容替换或修复,提升创作灵活性。

⚙️ ComfyUI集成:模型专为ComfyUI优化,提供节点化工作流支持,简化复杂任务配置。

详情链接:https://huggingface.co/ostris/Flex.2-preview

5、英伟达推多模态LLM Describe Anything:指定特定区域生成详细的描述

NVIDIA AI团队推出的Describe Anything3B(DAM-3B)模型在多模态学习领域引起了广泛关注。该模型能够根据用户指定的图像或视频区域生成详细描述,超越了传统图像标注的局限性。通过开源代码和数据集,DAM-3B为开发者提供了丰富资源,促进了多模态AI的研究与应用,尤其在教育、医疗和内容创作等领域展现出广阔的前景。

【AiBase提要:】

🖌️ DAM-3B具备区域化描述能力,能够根据用户指定区域生成详细描述,提升描述的精准性和丰富性。

🔓 NVIDIA开源了DAM-3B的代码、模型权重和数据集,推动了多模态AI研究的透明性和社区协作。

🌐 模型在内容创作、智能交互和无障碍技术等多个领域展现出广泛的应用前景,推动社会包容性进步。

详情链接:https://github.com/NVlabs/describe-anything

6、纳米AI发布MCP万能工具箱,简化AI工具集成与调用

纳米AI推出的MCP万能工具箱旨在简化Model Context Protocol的配置复杂性,提供一站式解决方案。该工具箱预配置了100多个MCP服务和18个常用API密钥,支持多种功能如图像、音频和视频生成。它的发布引发了AI开发者社区的广泛关注,社区反馈积极,认为其高效性与易用性显著提升了开发者的工作效率。

6388108570168340928723655.jpg

【AiBase提要:】

🔧 预配置100多个MCP服务,开发者无需手动配置即可直接调用,降低接入门槛。

🔑 内置18个常用API密钥,用户可省去自行获取密钥的繁琐步骤,简化初始配置。

🌐 支持多模态生成,通过自然语言指令生成图像、音频和视频,提升创作效率。

详情链接:https://bot.n.cn/download?src=AIBotCode

7、腾讯云代码助手CodeBuddy推出Craft软件开发智能体

腾讯云于4月24日发布了全新升级的代码助手CodeBuddy,推出Craft软件开发智能体。此工具将AI编程从简单的代码补全提升至项目交付,显著提高了开发效率。开发者只需用自然语言输入需求,Craft便能自动生成完整的项目代码,并支持主流IDE。Craft还支持MCP协议,实现代码的无缝接入测试、构建和部署,兼容腾讯生态系统,助力团队高效协作。

image.png

【AiBase提要:】

🚀 Craft智能体能将开发者的自然语言需求转化为完整的项目代码,极大简化开发流程。

🔗 支持MCP协议,使得AI生成的代码能够无缝接入测试和部署环节,提高了开发的连贯性。

🧩 CodeBuddy已在腾讯内部广泛应用,85%的开发者使用该工具,显著提升了整体开发效率。

详情链接:https://cnb.cool

8、昆仑万维开源Skywork-R1V2.0版本

昆仑万维于4月24日发布了其多模态推理模型Skywork-R1V2.0,显著提升了视觉与文本推理能力,尤其在高考理科难题和通用任务场景中表现优异。该模型在多个权威基准测试中刷新了开源SOTA纪录,展现出与商业闭源模型相媲美的能力。R1V2.0的开源不仅体现了昆仑万维在多模态领域的技术实力,也为全球开发者和研究者提供了强大的工具,推动了多模态生态的建设。

image.png

【AiBase提要:】

🔍 R1V2.0在中文理科题目推理方面表现突出,成为免费AI解题助手,刷新多个开源SOTA纪录。

⚙️ 采用多模态奖励模型Skywork-VL Reward和混合偏好优化机制,提升模型在多任务、多领域下的适应能力。

🌍 昆仑万维致力于推动开源和创新,R1V2.0的开源为AGI的发展提供了新的基座模型,未来将继续推出领先的大模型与数据集。

详情链接:https://github.com/SkyworkAI/Skywork-R1V

9、智谱宣布旗下多款大模型产品降价 其中GLM-4-Plus降价90%

智谱BigModel开放平台于4月24日宣布其多款大模型产品价格大幅调整,进入了“亿时代”,使企业能够以低成本接触到先进的AI技术。此次调整包括GLM-4-FlashX、GLM-Z1系列和GLM-4-Plus等多个产品,特别是GLM-4-Plus的降价幅度高达90%。这一举措旨在降低使用门槛,满足金融、互联网、教育等多个行业的需求,推动市场对大模型技术的广泛应用。

6388109073699302485969311.png

【AiBase提要:】

🚀 GLM-4-FlashX模型每亿tokens价格仅为10元,推理速度与GPT-4相当,表现优异。

💡 GLM-Z1-AirX推理速度是DeepSeek-R1的8倍,性价比高,GLM-Z1-Air价格仅为DeepSeek-R1的1/30。

📉 GLM-4-Plus价格降至5元/百万tokens,行业领先,满足多行业场景需求。

10、JSON Visuals for ChatGPT发布,解锁无限图像风格创作

JSON Visuals for ChatGPT的发布为图像生成带来了全新的创意维度,用户可以利用超过50种美学代码和随机化器,轻松生成个性化的视觉内容。该工具不仅提升了生成的灵活性,还支持高分辨率输出,适用于数字艺术、品牌营销、游戏设计等多个领域。社区反馈积极,期待未来的功能优化和扩展。

【AiBase提要:】

✨50+美学代码,支持多样化风格生成,满足创作需求。

🔄 属性随机化器,自动调整风格属性,探索创意无限可能。

🚀 高兼容性,快速生成高分辨率图像,提升用户体验。

详情链接:https://json.visuals.zip/

11、国家知识产权局:中国成为全球AI专利最大拥有国,占比达60%

在国务院新闻办公室的发布会上,国家知识产权局局长申长雨宣布,中国在人工智能领域展现出强劲的发展势头,已成为全球AI专利的最大拥有国,专利数量占全球总量的60%。这一成就不仅反映了科技创新的突破,也彰显了中国在新兴产业中的领导地位。国家知识产权局积极推动相关知识产权制度的创新,以支持人工智能技术的发展,并致力于完善知识产权保护规则,提升保护和运用水平。

【AiBase提要:】

🌟 中国在全球人工智能专利中占据60%份额,成为最大拥有国。

⚙️ 国家知识产权局推出多项政策,支持人工智能技术的快速发展与应用。

📈2024年知识产权授权数据喜人,社会满意度提升至82.36分。

12、199元!小米新款智能音箱发布:AI大模型加持,智能对话再升级

小米新款智能音箱以199元的亲民价格正式发布,虽然在硬件配置上相比Pro版有所精简,但其AI大模型的引入使得智能交互体验得到了显著提升。新音箱支持连续对话与指令语控,用户能够更高效地操控智能家居。同时,新增的远程备车功能也为用户提供了更为便捷的出行体验。整体来看,这款音箱在性价比和智能化方面都表现出色,适合追求便捷生活的用户。

image.png

【AiBase提要:】

🎨 外观设计延续Pro版简约风格,采用清爽浅灰色外壳,尺寸更小巧。

🔧 功能上有所取舍,取消红外遥控和Type-C音频连接,但声学配置依然出色。

🤖 AI大模型加持,支持连续对话和远程备车功能,智能交互体验显著提升。

举报

  • 相关推荐
  • AI日报:阿里上线首个官方大模型NBA Chat; Ideogram4.0开源发布;OpenAI升级ChatGPT记忆系统

    今日AI领域动态:Ideogram 4.0开源发布,93亿参数打造最强文字生成AI,提升海报与品牌营销创作;OpenAI升级ChatGPT记忆系统,算力降至1/5,解决过时与准确性痛点;腾讯文档推出行业首创“人机双写”原生编辑器;xAI发布Grok Imagine Video 1.5,支持图片转视频;豆包回应AI识别野生蘑菇误判,强调仅供参考;知乎Q1扭亏为盈,AI短剧成增长点;腾讯云ADP 4.0新增Claw模式,提升企业Agent构建效率;NBA中国与阿里推出首个官方大模型“NBA Chat”。

  • AI日报:微信开放平台发布AI生态接入指引;月之暗面再融资20亿美元;ChatGPT紧急上线封锁模式

    【AI日报】今日要点:微信开放平台发布AI生态接入指引,小程序可调用微信AI能力;高德发布全球首个3D原生城市世界模型ABot-Earth0.5,覆盖190多个国家和地区;OpenAI推出ChatGPT“锁定模式”防数据泄露;中国AI大模型周调用量达14.19万亿Token,连续六周超越美国;腾讯发布首个智能体行业应用LearnBuddy;顾全全确认离职字节跳动Seed团队;月之暗面再融资20亿美元,估值达300亿;苹果计划在WWDC2026推出全新AI战略,升级Siri并引入Google Gemini。

  • 微信正式面向开发者提供接入微信AI生态的能力

    6月8日,微信正式向开发者开放接入微信AI生态的能力。开发者可在“小程序管理后台-AI能力”中授权接入,平台提供两种模式:自动模式可读取小程序源码,无需额外开发;开发模式则允许开发者基于业务特性自主开发,经平台评估后供AI调用。两种模式可同时开启。目前该功能处于内测阶段,用户暂无法体验。微信强调,是否接入由开发者自主决定,不影响现有小程序服务。

  • 压过醒图,只有2个功能的图像App爬上App Store总榜

    五月初,国内 App Store 下载总榜前列中出现了一个“异类”。 一个没有滤镜、不能调色、只有2个功能的 App,在5月初压过醒图、美图秀秀等产品,登上 App Store 下载总榜 Top6,摄影分类榜 Top1。最近,其日下载量稳定在20万左右。

  • AI日报:千问全面开放第三方Agent与Skill;字节开源统一框架 Bernini;OpenAI 推出 Sites 功能

    AI日报今日要点:1. 阿里千问全面开放第三方Agent与Skill,瑞幸、东航等首批接入,升级为"超级Agent"个人助手;2. 字节跳动开源Bernini框架,通过"先理解、再生成"机制解决视频编辑画面失控问题;3. OpenAI推出Sites功能,可将创意秒变互动网站;4. 微软Win11隐藏AI卸载选项,可释放超2.5GB硬盘空间;5. DeepSeek首轮融资估值或达4000亿元,腾讯、宁德时代拟参投;6. OpenAI发布六行业Codex工作流插件;7. 谷歌推出Android虚假来电检测功能;8. 亚马逊Ring门铃人脸识别功能遭集体诉讼。

  • 全新鸿蒙7来了!华为开发者大会定档6月12日:和安卓iOS开启三足鼎立时代

    在nova 16系列新品发布会上,华为终端BG CEO何刚正式对外预告,华为开发者大会2026将于6月12日在东莞松山湖拉开帷幕。按照历年大会的发布惯例,全新一代鸿蒙7操作系统将会在这次盛会上正式全球亮相。 去年6月,华为同样是在松山湖举办了华为开发者大会2025,当时的大会上,华为正式启动了HarmonyOS 6开发者Beta测试版本,同步推出了鸿蒙智能体框架HMAF,为后续全场景AI能力落�

  • 一起昇腾 共绽光芒:昇腾AI开发者峰会2026在京成功举办

    华为昇腾开发者大会2026在北京举办,主题为“一起昇腾 共绽光芒”,聚焦Agentic AI时代的技术创新。华为Fellow廖恒指出,昇腾950芯片通过优化互联能力,构建高带宽、低延迟的超节点,应对MoE模型推理的毫秒级时延挑战。周斌宣布CANN全面开源,兼容主流生态,推出CANNBot智能体,使算子开发效率提升5倍以上。同时,昇腾全面升级开发者使能计划,提供免费算力、社区支持及创新激励基金,携手开发者共建繁荣生态。

  • Check Point发布智能体暴露验证功能,主动应对AI模型自主漏洞利用威胁

    Check Point发布全新AI智能体“暴露验证(AEV)”,以攻击者视角推理验证真实可利用漏洞,帮助安全团队在攻击前采取行动。该功能利用前沿AI模型自主发现和利用漏洞,结合威胁情报上下文,从外部审视企业数字暴露面,摒弃静态严重性评分,通过安全验证闭环分析资产、CVE漏洞及现有控制措施,生成针对性验证路径。AEV是持续威胁暴露管理(CTEM)体系的关键验证能力,已为数十个漏洞生成新利用路径,现已正式上线。

  • 男子用AI写歌月入十几万:40秒就能生成一首歌

    近日,浙江杭州一名从业者借助AI音乐创作工具实现可观收益。该创作者只需上传一张图片,耗时40秒便能生成一首完整曲目,工具可驾驭各类曲风,生成作品的人声、唱腔还原度贴近真人演唱,普通听众很难区分演唱者是AI还是真人。 依托低成本批量制作AI歌曲,投放到音乐、短视频平台变现,月收入可达十几万元,AI生成音乐也逐渐在各大内容平台收获流量。 同时他提醒大

  • AI日报:小米MiMo-V2.5系列API永久降价;千问升级拍照问健康;豆包将禁用拍题答疑

    本期AI日报涵盖8大热点:1.小米MiMo-V2.5系列API永久降价最高99%,优化计费体系降本增效;2.通义千问升级“拍照问健康”功能,实现医学图像理解与临床推理;3.多家AI平台高考期间服务受限,豆包禁用拍题答疑,腾讯元宝延续不答题策略;4.MiniMax M3大模型即将发布,稀疏注意力架构使性能提升9.7-15.6倍;5.上海发布“沪8条”政策,最高千万资助AI微短剧全流程智能化发展;6.MiniMax、阶跃星辰联手支付宝,共建AI原生支付基座;7.环球音乐与TikTok续签授权协议,AI音乐治理成合作核心;8.Google将SynthID水印技术集成至搜索与Chrome,一键验证AI生成内容真实性。

今日大家都在搜的词: