首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:OpenAI推图片模型GPT Image 1.5;腾讯发布混元世界模型1.5;小米开源MiMo-V2-Flash大模型

2025-12-17 15:40 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、OpenAI 推出全新图像生成模型 GPT Image 1.5,性能显著提升!

OpenAI 推出了全新的图像生成模型 GPT Image 1.5,该模型在图像生成和编辑能力上实现了显著提升,能够精准地遵循用户指令并保留原图的核心要素。同时,它还优化了文本渲染效果,解决了以往 AI 绘图中常见的问题。此外,OpenAI 还加强了安全与合规团队,以确保生成内容的伦理与法律合规性。

image.png

【AiBase提要:】

🌟 新发布的 GPT Image1.5 模型大幅提升了图像生成和编辑能力。

🖼️ 用户可以通过 ChatGPT 轻松创建和编辑图像,提供了专业级的图像处理工具。

🔒 OpenAI 建立了专门的安全团队,确保生成内容的伦理与合规。

2、腾讯发布混元世界模型 1.5,开启实时交互的虚拟世界

腾讯正式发布了混元世界模型1.5(Tencent HY WorldPlay),这是国内首个开放的实时互动体验平台。该模型通过文字或图片快速生成独特的互动世界,并支持实时探索。模型具备实时交互、长范围的3D一致性和多样化的交互体验。此外,腾讯首次开源了业内最全面的实时世界模型训练体系,为AI生成内容的未来提供了全新可能。

image.png

【AiBase提要:】

🕹️ 实时交互生成能力,以24帧每秒的速度生成720P高清视频。

🌐 长范围的3D一致性,确保场景连贯性。

🔧 首次开源的训练体系,为AI生成内容提供全新可能。

详情链接:https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay

3、小米开源3090亿参数MiMo-V2-Flash大模型,推理速度碾压主流竞品,API低至0.1美元/百万Token

小米正式进军高性能开源大模型赛道,发布全新基础语言模型 MiMo-V2-Flash,并以 MIT 协议全面开源模型权重与推理代码。该模型以“超高速、高效率”为核心卖点,在推理、代码生成与智能体任务中表现尤为突出,实测响应速度甚至超越当前热门的豆包、DeepSeek和元宝等国产模型,引发开发者社区广泛关注。

【AiBase提要:】

🧠 MiMo-V2-Flash采用稀疏激活架构,总参数量高达3090亿,但每次推理仅激活150亿参数,显著降低计算开销。

⚡ 在多项公开基准测试中,MiMo-V2-Flash表现优异,响应速度超越主流竞品,尤其在多轮对话与复杂逻辑推理场景中优势明显。

💰 API定价极具竞争力,每百万输入Token仅0.1美元,输出Token0.3美元,为中小企业和独立开发者提供高性价比的替代方案。

4、字节跳动发布 Seedance 1.5 Pro:AI 音视频创作进入 100% 视听同步时代!

字节跳动发布 Seedance 1.5 Pro,标志着AI音视频创作进入100%视听同步时代,为用户带来更丰富的视听体验。

image.png

【AiBase提要:】

🎥 支持音视频联合生成,通过文本或图像引导生成内容。

🎬 提升视听同步能力,实现角色口型、语调与表演节奏的拟合。

🎭 多语种和方言支持,增强喜剧等风格化内容的表现力。

5、Apple Music 将与 ChatGPT 实现全新集成,用户可轻松创建歌单!

OpenAI 宣布 Apple Music 将与 ChatGPT 实现集成,用户可以通过自然语言指令轻松创建歌单和查找音乐,这将极大提升用户体验的便捷性。

image.png

【AiBase提要:】

🎵 Apple Music 即将与 ChatGPT 集成,用户可轻松创建歌单。

💬 用户通过自然语言指令可以快速生成适合的播放列表。

🔍 ChatGPT 能够帮助用户查找音乐,提升使用体验的便捷性。

6、Gemini预测市场全美上线: 50 州用户可实时交易现实事件,免手续费限时开放

Gemini正式将预测市场产品Gemini Predictions推向全美,允许用户围绕真实世界事件进行预测性交易。平台基于合规框架构建,采用链下撮合、链上结算机制,保障速度与透明度。为加速用户 adoption,Gemini推出限时零手续费活动。

【AiBase提要:】

🌍 Gemini Predictions 全美上线,覆盖所有50个州,用户可实时交易现实事件。

🔒 平台基于合规框架构建,确保交易在受监管环境中运行,结果不可篡改。

💰 限时零手续费活动,吸引用户参与,挑战现有预测市场平台。

7、Adobe Firefly视频功能大升级:支持精准提示编辑、集成FLUX.2与Astra,告别“重做整段视频”时代

Adobe Firefly视频功能迎来重大更新,新增支持基于文本提示的精准局部修改,并整合多个第三方模型,提升创作自由度和画质。新功能还带来可视化时间轴界面和相机运动迁移能力,为短视频创作者提供电影级运镜。

【AiBase提要:】

🔥 新增基于文本提示的精准局部修改功能,提升创作效率。

🖼️ 集成Black Forest Labs的FLUX.2图像模型,增强生成质量。

🎥 支持相机运动迁移,实现电影级运镜效果。

8、谷歌实验室推出 AI 助手 CC:集成 Gemini 技术,打造智能“日程管家”

谷歌实验室推出了基于 Gemini 技术的全新 AI 助手 CC,通过深度整合谷歌生态系统,帮助用户实现全自动化的日程梳理与任务管理。

image.png

【AiBase提要:】

📅 CC 是一款基于 Gemini 技术的 AI 助手,旨在帮助用户实现全自动化的日程梳理与任务管理。

📧 CC 能够整合 Gmail、谷歌日历和谷歌云端硬盘等工具,提供“您的一天预览”简报。

💡 用户可以通过回复邮件或发送自定义请求来指导 CC,让它更了解自己的偏好。

举报

  • 相关推荐
  • Google撬回了苹果,给了OpenAI又一次惨败

    北京时间1月13日凌晨,苹果与谷歌联合发布声明,宣布达成一项多年期深度合作协议:下一代苹果基础模型(Apple Foundation Models)将基于 Google Gemini 模型和云技术构建,并为今年即将上线的个性化 Siri 提供核心技术支持。

  • AI日报:阅文、中文在线推AI全栈工具;陌陌甜甜圈上线;OpenAI收购医疗初创公司Torch

    本期AI日报聚焦行业热点:OpenAI以约1亿美元收购医疗初创公司Torch,深化智能健康布局;Google Nano Banana Pro模型两月生成百亿图片,展现强大创意控制力;陌陌上线“甜甜圈”AI恋爱应用,瞄准Z世代情感陪伴需求;AI短剧工具井喷,阅文、中文在线等平台推动行业变革;Anthropic推出医疗合规AI助手Claude,赋能医患双方;谷歌Android XR眼镜应用曝光,支持3K视频与Gemini端侧对话;Adobe Firefly集成GPT-Image 1.5,开启不限量生成模式;Anthropic推出Cowork工具,降低AI代理使用门槛,让非技术用户也能高效处理复杂任务。

  • AI日报:电信开源MoE大模型TeleChat3;微信推出AI小程序成长计划;谷歌测试Nano Banana2Flash 图像模型

    本期AI日报聚焦行业动态与产品更新。微信推出AI小程序成长计划,提供免费资源助力开发者。中国电信开源千亿参数MoE大模型TeleChat-3,实现国产算力训练。谷歌测试新图像模型Nano Banana2Flash,主打高性价比。马斯克宣布Grok新版上线,全球用户突破3000万。ChatGPT全面接入主流App,可一键订酒店、点外卖等。此外,高德打车上线“AI服务卫士”提升安全,AI助手“ima”新增PPT生成功能,Plaud推出AI录音笔,智元与MiniMax合作定制个性化机器人语音。

  • AI日报:Meta宣布收购Manus;腾讯混元发布1.5版开源翻译模型;OpenAI更新手机版ChatGPT

    本期AI日报聚焦行业动态与产品更新。Meta以数十亿美元收购AI初创公司Manus,强化通用AI代理技术。腾讯混元发布1.5版开源翻译模型,端侧部署性能提升。上海16部门联合发文推动“AI+消费”,将发放算力券、模型券等支持工具。微软Copilot全线升级GPT-5.2,免费开启“专家级”工作流。Zara利用AI技术数字化编辑模特照片以削减成本,引发行业讨论。Plaud Note Pro AI录音笔凭借超薄离线和隐私保护设计,成为专业用户首选。OpenAI更新手机版ChatGPT,用户可调节AI思考深度。Claude Code可视化工作流编辑器发布,通过拖拽节点即可构建AI自动化流程。

  • 阿里Z-Image登顶开源图像生成模型榜单:1秒生图 千图仅需5美元

    今日,阿里Z-Image登顶开源图像生成模型榜单。 全球权威AI基准测试平台ArtificialAnalysis公布最新的图像模型榜单,阿里6B参数Z-Image Turbo超越32B的FLUX.2,成为最强开源图像生成模型。 目前,该模型已在阿里云百炼上线,生成1千张图片仅需5美元。 Z-Image Turbo的ELO分数达到1152,也刷新了榜单纪录。 业内人士认为,这是业界性能最好、生成速度最快、价格最便宜的图像生成模型之�

  • 比GPT更懂图表!镝数推出国内领先可编辑AI Agent可视化平台

    文章探讨了职场中数据可视化面临的挑战,指出传统AI工具生成静态图表难以编辑,导致返工成本高。爱图表(aitubiao.com)作为解决方案,通过“白盒式”生成逻辑,提供可深度编辑的图表与报告,打通从数据到洞察的“最后一公里”。其核心在于多智能体协作架构,结合多年积累的数据集与自研模型,确保生成内容透明可控。产品上线后用户增长迅速,反映了市场对“AI生成可编辑图表”的强烈需求。

  • AI日报:实时世界模型 PixVerse R1发布;Vidu发布AI一键生成MV功能;可灵AI ARR达2.4亿美元

    本期AI日报聚焦多项AI领域突破:爱诗科技发布全球首个通用实时世界模型PixVerse R1,实现虚拟世界实时交互;Vidu推出AI一键生成MV功能,打造“虚拟制片厂”;MiniMax发布编程智能体基准测试OctoCodingBench;快手可灵AI年化收入达2.4亿美元;智谱联合华为开源多模态模型GLM-Image,全链路跑通国产芯片;百川智能发布医疗大模型Baichuan-M3;谷歌重构电商未来,推出Agentic AI购物系统;谷歌开源医疗AI模型MedGemma 1.5与语音识别模型MedASR。

  • PS天塌了!阿里开源全新图像模型Qwen-Image-Layered 可实现PS级图层

    阿里开源全新图像生成模型Qwen-Image-Layered,首次在模型内实现PS级的图层理解与图像生成。 千问新模型采用自研创新架构,可将图片拆解”成多个图层,就像个专业设计师用Photoshop分层作图修图,可实现几乎零漂移”的AI图像精准编辑,彻底解决AI生图的一致性难题,加速大模型在专业设计领域的现实落地。 Qwen-Image-Layered打破了主流视觉大模型的扁平式思维”,模型通过分层�

  • AI 搜索时代,品牌如何被“看见”?GEOBase 深度实测:企业实现生成式引擎优化的实战指南

    随着生成式AI的普及,用户搜索行为从传统网页转向直接向AI提问,品牌面临“数字隐身”风险。GEO(生成式引擎优化)应运而生,旨在优化品牌在AI回答中的可见度。AIbase推出的GEOBase平台,通过多平台矩阵监控、AI引用来源分析、业务主题与语义分析、竞品对标分析等功能,帮助企业精准掌握品牌曝光与口碑,并提供从监控到优化的闭环策略,是AI时代品牌生存的“雷达系统”。

  • 抢占 AI 搜索流量高地!GEOBase:让品牌在生成式引擎时代 “被看见、被推荐”

    AI对话模型重塑搜索生态,品牌面临如何在海量信息中被精准“找到”的难题。GEOBase作为企业级智能数据平台,提供从品牌数据监测、竞品分析到内容优化的全链路解决方案,帮助品牌跳出“盲目试错”困境,用数据驱动决策。多个行业案例显示,借助其功能,品牌AI提及率、用户咨询量及转化率均获显著提升。在AI搜索流量快速增长的趋势下,GEOBase助力企业高效抢占流量高地,实现智能时代的战略破局。

今日大家都在搜的词: