首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

2025-05-21 15:54 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、每月249.99美元!谷歌推出 AI Ultra 订阅计划,畅享最强大 AI 模型与高级功能

谷歌推出了全新的 AI Ultra 订阅计划,提供最高级别的 AI 模型访问和丰富的高级功能,适合电影制作人、开发者及创意专业人士。计划包含最新的 Gemini 应用、Flow 工具、30TB 存储空间等,订阅费用为每月249.99美元。

image.png

【AiBase提要:】

🌟 提供最高级别的 AI 模型访问和丰富的高级功能,适合追求最佳 AI 体验的用户。

🎥 Flow 工具支持高质量视频生成,掌握高级摄影控制并体验 Veo3功能。

💾 提供30TB 存储空间,确保用户创作和文件的安全性。

详情链接:https://blog.google/products/google-one/google-ai-ultra/

2、腾讯混元宣布模型矩阵全面升级,新推视觉推理模型T1-Vision和语音通话模型混元Voice

腾讯混元全面升级其模型矩阵,推出T1-Vision和混元Voice等新模型,TurboS在国际评测中表现优异,多模态技术取得新进展,同时推动开源技术发展。

image.png

【AiBase提要:】

🚀 混元推出T1-Vision和混元Voice,增强视觉和语音处理能力。

🏆 TurboS模型在全球评测中跻身前八,理科推理能力提升超10%。

🌐 腾讯混元开源多模态技术,支持行业创新与合作伙伴发展。

3、美图与阿里巴巴达成战略合作 获得2.5亿美元投资

美图公司与阿里巴巴达成战略合作,阿里巴巴通过可转债形式投资2.5亿美元,双方将在电商、AI技术、云计算等领域展开深度合作。

【AiBase提要:】

阿里巴巴以可转债形式投资美图2.5亿美元,助力其AI技术和电商业务发展。

美图与阿里巴巴将在电商工具开发及云服务采购上深化合作,提升商家运营效率。

合作需满足政府审批条件,旨在推动技术创新和业务增长。

4、豆包·语音播客模型发布将在豆包APP及PC端、扣子等上线

火山引擎推出的豆包·语音播客模型通过流式模型构建,实现了文本到播客的快速转化,带来高效、互动性强的创作体验。

image.png

【AiBase提要:】

🌟对话自然流畅,模拟真人播客口语习惯,提升听感真实度。

⚡端到端便捷链路,从创作到成品仅需秒级时间,极大提高效率。

🔍支持深度搜索与超长文本转播客,随时紧跟热点并丰富内容。

5、百度文心 X1Turbo 大放异彩,斩获信通院最高评级!

百度文心大模型 X1Turbo 在信通院评估中获国内首个“4+ 级”最高评级,展示出卓越的技术实力。

image.png

【AiBase提要:】

🚀 文心 X1Turbo 在24项能力评估中表现突出,16项能力满分,特别是在逻辑推理和代码推理方面。

🌟 基于文心大模型4.5升级,X1Turbo 性能更强、成本更低,且安全可靠度得到认可。

🌐 百度在AI技术研发中持续创新,X1Turbo 的成功标志着国内AI技术的重要突破。

6、谷歌发布Flow AI剪辑工具:Veo3与 Imagen4驱动、镜头控制与场景扩展

在2025年的Google I/O开发者大会上,谷歌推出了面向影视创作者的全新AI剪辑工具Flow,集成了Veo3、Imagen4和Gemini三大AI模型,通过自然语言提示和模块化工作流简化视频创作过程,为专业人士和初学者提供电影级视觉叙事能力。

image.png

【AiBase提要:】

🎥 Flow整合Veo3、Imagen4和Gemini,通过简单文本提示生成高质量AI视频片段,支持角色对话和环境音效。

🎥 Scenebuilder与Camera Controls功能赋予创作者对视频片段的无缝编辑和镜头控制能力。

🎥 内置Asset Management与Flow TV平台,优化素材管理和提供学习资源,助力创意社区发展。

详情链接:https://labs.google/flow/about

7、从文本到电影!谷歌Veo3震撼发布:4K画质、音视频一体生成

谷歌发布的Veo3视频生成模型,不仅支持音视频一体化生成,还具备超高分辨率和多样化风格支持,为创作者提供强大工具的同时,也强调了安全性与责任性。

【AiBase提要:】

🎥 Veo3可同时生成高清视频与匹配音频,简化创作流程,物理模拟和口型同步效果出色。

🌍 支持4K分辨率,捕捉细微描述,适应多种风格需求,适合专业及教育领域使用。

🔒 仅限特定用户开放,集成安全功能如数字水印与筛选器,未来将扩展应用场景。

8、谷歌Imagen4图像模型震撼发布:2K画质与精准文本渲染重塑AI创作

谷歌推出了最新一代图像生成模型Imagen4,具有超高分辨率、精准文本渲染和多种风格支持,为创作者提供强大工具。

image.png

【AiBase提要:】

✨超高分辨率与细节表现力:支持2K分辨率,细节捕捉显著提升,满足专业设计需求。

🌟改进的文本渲染与风格多样性:生成清晰文字,支持多种艺术风格,扩展创作者表达空间。

🚀快速生成模式与生态整合:速度提升10倍,集成多个平台,确保内容可追溯,降低误用风险。

9、谷歌Gemini2.5Pro Deep Think发布:并行推理重塑AI复杂问题解决

谷歌DeepMind在2025年Google I/O开发者大会上推出Gemini2.5Pro Deep Think模式,采用并行推理技术,大幅提升数学、编码和多模态推理能力,支持开发者灵活调整推理质量和成本。

【AiBase提要:】

💎 Deep Think模式通过并行推理技术,显著提升复杂任务表现,如数学、编码和多模态推理。

⚙️ 引入思考预算功能,开发者可平衡响应质量、延迟和成本,适应不同场景需求。

🔒 当前仅对受信任测试者开放,未来几周将逐步扩展至更广泛的应用领域。

10、谷歌虚拟试衣间重磅上线!上传照片秒变时尚模特,AI一键比价+自动下单

谷歌在I/O2025大会上推出了全新的AI虚拟试衣工具,用户上传照片即可快速生成逼真的穿搭效果图,同时支持多条件搜索、比价分析和自动下单,极大提升了在线购物的个性化和便利性。

image.png

【AiBase提要:】

✨ 使用AI虚拟试衣工具,上传照片后几秒内就能生成逼真的穿搭效果图,体验高度个性化。

🔍 集成多条件搜索、实时比价和自动下单功能,简化购物流程,提升购物效率。

🌍 基于Gemini2.5和Shopping Graph技术,精准捕捉服装细节,支持多种体型和品牌。

11、谷歌公测AI编码助手Jules:Gemini2.5Pro驱动,挑战OpenAI的Codex

谷歌推出的AI编码助手Jules进入全球公测阶段,基于Gemini2.5Pro模型,通过异步任务处理和GitHub集成提升开发者效率,透明工作流和免费配额吸引用户,未来扩展潜力巨大。

image.png

【AiBase提要:】

🌟 异步任务处理与GitHub无缝集成,修复Bug、编写测试等任务自动化。

📝 透明工作流,生成详细计划和代码变更差异,确保代码质量与团队规范。

🚀 支持Python和JavaScript,未来扩展至更多语言,挑战OpenAI Codex和GitHub Co pilot。

详情链接:https://jules.google/

12、苹果计划在 iOS19中向第三方开发者开放 AI 模型

苹果计划在 iOS19中向第三方开发者开放其 AI 模型,促进应用创新并增强硬件吸引力。初期将开放能在本地设备上运行的小型 AI 模型,开发者可通过新工具包利用 Apple Intelligence 创建新功能。

【AiBase提要:】

🍎 苹果计划在 iOS19中开放 AI 模型,推动应用创新与硬件吸引力提升。

💻 开发者可利用 Apple Intelligence 创建新功能,初期仅开放本地小型 AI 模型。

🌟 苹果目标是通过简化开发流程,将操作系统打造成 AI 软件平台的核心。

13、京东云宣布五大AI营销产品限时免费,助力商家提升销售效率

京东推出五大AI营销产品,包括数字人直播、商家客服智能体、商品图生成服务、视频混剪平台等,免费提供给商家,以提升销售效率和运营能力。

【AiBase提要:】

🌟 京东免费推出五大AI营销产品,助力商家提升销售效率。

🤖 数字人直播可全天候带货,降低直播成本,提高转化率。

📸 京点点平台和视频混剪工具助力商家优化图文和视频营销。

14、字节跳动开源多模态模型 BAGEL:图文生成与编辑的新突破

字节跳动发布了一款名为BAGEL的开源多模态基础模型,拥有70亿个活跃参数,整体参数量达到140亿。该模型在多模态理解、文本到图像生成、图像编辑等方面表现出色,采用了混合变换器专家(MoT)架构,并通过多模态预训练实现了持续性能提升。

【AiBase提要:】

🌟 BAGEL 是一款开源多模态基础模型,拥有70亿个活跃参数,超越多项标准基准测试。

🖼️ 该模型在图像生成和编辑任务中表现出色,能够进行自由形式的图像编辑和世界导航。

📈 通过多模态预训练,BAGEL 展示了持续的性能提升,适应了复杂的多模态推理任务。

详情链接:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

15、英伟达推出新型模型 Cosmos-Reason1,让 AI 更好理解物理世界

英伟达发布的Cosmos-Reason1系列模型,通过物理AI监督微调和强化学习提升AI在物理常识和具身推理上的能力,为机器人和自动驾驶领域带来新可能。

image.png

【AiBase提要:】

🌟 英伟达发布Cosmos-Reason1系列模型,增强AI在物理推理中的能力。

🤖 采用双本体系统,结合视频和文本数据进行同步推理。

📈 在物理常识和具身推理基准测试中表现优异。

详情链接:https://github.com/nvidia-cosmos/cosmos-reason1

举报

  • 相关推荐
  • 火山引擎推出豆包·语音播客模型:文本秒变双人对话播客,5 秒生成热点音频!

    5月20日,火山引擎推出豆包·语音播客模型,实现文本秒转专业播客内容。该模型三大优势:1)自然流畅的双人对话效果,语音拟真度高;2)支持热点话题即时生成,5秒产出最新资讯播客;3)提供端到端创作链路,支持超长文本/网页链接转播客。相比传统AI播客,解决了内容重复、机械感强等问题。模型即将登陆豆包APP及PC端,6月11日将在火山引擎大会上展示更多功能。

  • AI日报:美团AI编程工具NoCode将上线;火山引擎发布MCP Servers;腾讯混元上线游戏视觉生成平台

    本文汇总了近期AI领域的重要动态:1)美团将推出对话式编程工具"NoCode";2)火山引擎发布大模型生态平台MCP Servers;3)B站开源动画视频生成模型Index-AniSora;4)字节跳动升级AI耳机Ola Friend的英语学习功能;5)GitHub推出AI编程助手自动修复代码漏洞;6)腾讯混元上线游戏视觉生成平台;7)微软将VS Code转型为开源AI编辑器;8)Windows 11原生支持MCP协议;9)Anthropic发布AI代理开发指南;10)谷歌推出编程AI代理Jules;11)NotebookLM推出iOS版;12)Genspark创3600万美元ARR纪录;13)Bright Data发布开源MCP服务器;14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • 国补4099元起!努比亚Z70S Ultra摄影师版发布:唯一真面屏Ultra

    努比亚Z70S Ultra摄影师版4月28日正式发布。新机采用经典相机设计,后摄模组配备真真空镀双色膜层工艺,银色拉丝玻璃纹理极具质感。搭载第五代35mm定制光学系统,配备5000万像素光影大底990国产旗舰传感器,影像素质超越"一英寸"。支持水平/垂直四相位检测自动对焦技术(H/V QPD)及DCG双转换增益HDR技术,对焦更快更准。配备6400万像素潜望式长焦和5000万像素超广角微距镜头,实现全焦段覆盖。正面采用6.85英寸第七代真全面屏,支持2592Hz超高频PWM调光。搭载骁龙8至臻版处理器,内置6600mAh第三代南海电池,日常续航40小时,零下20度仍可连续刷短视频16小时。售价4599元起,国补后4099元起。

  • 红点奖加持!英菲克 IN9 Ultra 枪火版感交互未来鼠标已来

    英菲克推出革命性电竞鼠标IN9+ Ultra枪火版,采用全感交互技术颠覆传统体验。这款荣获德国红点奖和法国设计金奖的产品搭载多维震动专利技术,通过三颗线性马达构建精准震动矩阵,能将游戏动作实时转化为触觉反馈。内置0.78英寸OLED屏可显示电量、回报率等参数并支持个性化定制。配备PAW3950旗舰传感器,支持30000DPI、750IPS追踪速度和50G加速度。800mAh大电池续航提升60%,支持三模连接(有线/2.4G/蓝牙5.2)。人体工学右手设计搭配仿生鱼鳍指托,首发价399元,预售再减30元,为玩家带来前所未有的沉浸式游戏体验。

  • Gemini接管搜索、全家桶秒变通用Agent ,以及Google Glass is so back!

    谁也没想到,Google I/O现场的最高潮来自“复活”的Google Glass有些翻车了的实时demo。2025 年 5 月 20 日,Google的年度开发者大会Google I/O在加州山景城举办。 与去年在举办之前一天被OpenAI“狙击”不同,今年的Google I/O,剑拔弩张的氛围让位给了派对的氛围,在ChatGPT带来的狼狈之后,Google已经回到了自己的节奏。 是的,它回到了饱和式发布的节奏。当天Google一口气发布了至少十�

  • 史上最强nova!华为nova 14 Ultra搭载Mate 70同款红枫原色镜头

    华为5月19日发布nova14系列及鸿蒙电脑新品。nova14 Ultra搭载全新红枫原色镜头,由Mate70系列首发,能精准测量全局光谱信息,大幅提升色彩还原度。配备三颗5000万像素RYYB镜头:F2.2潜望长焦支持3.7倍光学变焦、100倍数码变焦及OIS+AIS防抖;F1.4-F4.0十档物理可变光圈防抖镜头;120°超广角微距镜头支持2.5厘米微距。影像系统全面升级,堪称史上最强nova。

  • AI日报:小米首个推理大模型开源Xiaomi MiMo;快手上线AI笔记工具“喵记多”;腾讯拆分AI团队

    本文汇总了AI领域最新动态:1)小米开源70亿参数大模型Xiaomi MiMo,在数学推理和代码竞赛中超越OpenAI和阿里模型;2)快手推出AI笔记工具"喵记多",简化笔记管理;3)Luma AI发布电影级镜头控制API,降低视频生成门槛;4)腾讯重组AI团队,加大语言模型研发投入;5)Anthropic为Claude引入新语音"Glassy";6)谷歌NotebookLM新增50+语言音频概述功能;7)xAI将发布Grok3.5模型;8)Meta推出独立AI助手应用挑战ChatGPT;9)OpenAI紧急修复GPT-4o"谄媚"问题;10)Mac本地AI助手Simular升级隐私保护;11)CameraBench项目帮助AI理解镜头运动;12)谷歌推出个性化语言学习AI工具。

  • AI日报腾讯混元3D生成模型2.5版本发布;海螺推出图像人物参考功能;百度上线移动端超级智能体心响App

    本文介绍了多款AI领域的新产品和技术进展:1)Kortix-AI推出开源通用AI智能体平台Suna;2)腾讯混元3D生成模型升级至2.5版本;3)海螺AI推出基于单张图像生成多角度角色图像功能;4)百度发布"心响"App整合多智能体协作;5)Nari Labs开源媲美真人的对话语音模型Dia;6)Grok新增视觉处理和多语言支持;7)Genspark推出AI幻灯片工具;8)Character.AI发布让静态图片"说话"的AvatarFX模型;9)pad.ws结合白板和代码编辑器;10)OpenBMB开源社区推出长文本生成模型"卷姬";11)腾讯推出AI阅读助手"企鹅读伴";12)OpenAI有意收购Chrome浏览器;13)字节跳动调整AI产品线布局。这些创新展现了AI技术在自动化、3D生成、语音交互、内容创作等领域的快速发展。

  • Trae重磅升级全面开放自定义AI能力,用户可打造个人专属“AI 工程师”

    Trae新版本通过整合AI技术,提供更智能、高效的开发体验,支持多语言文件输入与多种功能扩展。它突破传统IDE模式,强调人机协作与个性化定制,实现需求快速转化和技术方案优化。同时,其开放的插件系统和自定义能力,满足不同场景的专业开发需求,推动AI在编程领域的深度融合与创新应用。

热文

  • 3 天
  • 7天