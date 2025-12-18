欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://app.aibase.com/zh

1、Gemini 3 Flash登场：免费、极速、智力反超Pro，谷歌AI全面进入“零延迟”时代

谷歌发布新一代轻量级模型Gemini3Flash，其响应速度达到前代三倍、近乎‘零延迟’，并在多项高难度基准测试中反超同代旗舰Gemini3Pro，成为史上首个在同期对比中‘小弟干翻大哥’的Flash模型。

【AiBase提要:】 🧪 在代码修复权威榜单SWE-bench上，Gemini3Flash以78%得分小幅领先Gemini3Pro（76.2%） 🧠 在博士级推理测试GPQA Diamond中拿下90.4%高分 ⚡ 在极难综合评估Humanity’s Last Exam中取得33.7%成绩，显著优于前代旗舰Gemini2.5Pro

2、火山引擎FORCE大会亮剑：豆包大模型1.8+Seedance 1.5 Pro发布，日均50万亿Tokens登顶中国第一

火山引擎FORCE大会发布了豆包大模型1.8和视频生成模型Seedance 1.5 Pro，并推出“AI节省计划”，旨在降低企业使用大模型的成本门槛。豆包大模型1.8在多个关键维度有显著提升，而Seedance 1.5 Pro则提升了视频生成质量与一致性。此外，豆包大模型日均Tokens使用量已突破50万亿，稳居中国第一、全球第三，标志着其从技术产品走向大规模产业应用。

【AiBase提要:】 🧠 豆包大模型1.8在推理、多语言、代码生成与工具调用等关键维度实现显著提升。 🎥 Seedance 1.5 Pro支持更长时长、更高帧率的可控视频内容创作，为短视频、广告、游戏等领域提供工业化级视觉生成能力。 💰 “AI节省计划”通过模型压缩、推理优化、资源调度等技术手段，降低企业使用大模型的成本门槛。

3、苹果开源 SHARP 模型:告别漫长等待，1秒让平面照片跃升3D 空间

苹果公司近日开源了名为 SHARP 的新型 AI 模型，该模型能够将一张普通的2D照片转化为具有真实物理比例的3D场景，仅需不到一秒钟。SHARP的核心技术是“3D高斯泼溅”技术，它通过深度训练掌握了通用的空间几何规律，只需一次快速扫描就能预测出数百万个带有光影信息的“高斯球”位置。SHARP的成像质量领先于业内最强模型，支持真实的相机移动模拟。目前，苹果已将SHARP的完整代码及资源发布在GitHub平台供全球开发者下载。

【AiBase提要:】 ⚡ 速度实现量级突破 : SHARP 模型将2D 转3D 的处理速度提升了三个数量级，实现了不到一秒的近乎实时转换体验。 🌐 领先的3D 生成技术 :基于3D 高斯泼溅技术，模型通过单次神经网络前馈即可预测数百万个3D 点位，精准还原真实物理比例。 🔓 全面开源生态 :苹果已在 GitHub 开源 SHARP 的代码与资源，旨在加速全球开发者在空间计算和3D 内容领域的创新。

4、Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

Meta发布了SAM Audio，这是全球首个支持多模态音频分离的模型，能够通过文本、视觉和时间片段提示，一键提取目标声音，如吉他声、人声或狗叫。该技术首次将人类自然感知声音的方式复刻到AI系统中，具有革命性的意义。

【AiBase提要:】 🎧 文本提示：通过语义描述提取对应声源。 👁️ 视觉提示：点击视频中的发声物体分离音频。 ⏱️ 时间片段提示：标记时间区间自动处理同类声音。 详情链接:https://ai.meta.com/samaudio/ https://github.com/facebookresearch/sam-audio

5、MiniMax通过港交所上市聆讯，国产大模型“第一股”或将花落上海

MiniMax通过港交所上市聆讯，有望成为首家登陆资本市场的国产大模型公司，其核心资产为大语言模型与多模态生成技术，这标志着资本市场对大模型商业化路径的认可度提升，并可能为后续AI公司IPO开辟通道。

【AiBase提要:】 🚀 MiniMax通过港交所上市聆讯，成为首家登陆资本市场的国产大模型公司。 💼 其核心资产为大语言模型与多模态生成技术，不同于传统计算机视觉企业。 📈 若成功上市，将验证资本市场对大模型商业化路径的认可度，并可能为后续AI公司IPO开辟通道。

6、OpenAI 正式官宣：开发者可向ChatGPT提交应用程序

OpenAI 向全球开发者开放 ChatGPT 应用提交权限，标志着 ChatGPT 进阶为 AI 原生应用平台。开发者可通过最新指南提交作品，通过审核后将出现在 ChatGPT 应用目录中，赋予 ChatGPT 实操能力。

【AiBase提要:】 🚀 生态大门开启：OpenAI 开放应用提交，开发者可将功能整合进 ChatGPT 供全球用户发现。 🛒 应用目录上线：用户可通过工具菜单或访问 chatgpt.com/apps 搜索和浏览精选 AI 应用。 💰 盈利前景明确：支持链接外部网站交易实体商品，并计划探索数字商品变现模式。

7、千问 App 接入高德：阿里 AI 走入现实世界

千问 App 接入高德地图，标志着其具备了物理世界的理解与行动能力，能够处理复杂的现实场景需求，并计划进一步接入更多核心场景，打造一个强大的超级入口。

【AiBase提要:】 🚀 千问 App 接入高德地图，实现从回答问题到地理空间推理的跨越。 🧭 千问能生成可视化决策卡片，直接唤起导航或打车服务。 🛍️ 阿里计划将千问打造为能调用现实履约网络的超级入口。

8、微软开源 TRELLIS.2：一键将图片转为高精度 3D 模型

微软开源了TRELLIS.2，这是一款高效的图像到3D模型生成工具，能够快速生成高质量的3D模型，并且支持多种平台使用。TRELLIS.2在NVIDIA H100显卡的支持下表现出色，能够在极短时间内完成高分辨率模型的生成。此外，它还提供了PBR四件套贴图，非常适合电商场景的应用。

【AiBase提要:】 🌟 TRELLIS.2是一款微软开源的图像到3D模型生成工具，能迅速生成高质量3D模型。 ⏱️ 该工具在NVIDIA H100显卡上生成512³分辨率模型仅需3秒，效率极高。 🛒 附带PBR四件套贴图，方便电商用户快速将产品转为3D展示。 详情链接:https://huggingface.co/microsoft/TRELLIS.2-4B

9、xAI 推最快语音代理 API，支持中文实时搜索与情绪控制

xAI 发布的 Grok 语音代理 API 在实时语音 AI 领域展现出卓越性能和极具竞争力的价格。该模型在音频推理基准测试中表现优异，响应速度远超竞品，并支持多语言自动检测、实时网页搜索与情绪控制等功能，为开发者提供了强大的工具。

【AiBase提要:】 🔥 Grok 语音代理 API 以每分钟 0.05 美元的价格推出，性价比极高。 🌐 支持包括中文在内的多种语言自动检测与自由切换，适应全球用户需求。 🧠 深度集成实时网页搜索与推理能力，确保回复内容紧跟最新资讯。

10、豆包AI眼镜明年上市！联合润欣科技、老凤祥打造 2000 元内智能穿戴新品

豆包AI眼镜即将在 2025 年初上市，由火山引擎提供技术支持，润欣科技负责硬件设计，并与老凤祥合作打造时尚外观。该产品定价 2000 元以内，支持实时语音助手、环境感知等场景化功能，标志着字节跳动以“大模型+硬件+渠道”策略抢占下一代人机交互入口。

【AiBase提要:】 🧠 豆包AI眼镜依托火山引擎的RTC技术，实现低延迟语音交互与云端协同。 💼 联合润欣科技和老凤祥，打造融合大模型能力的亲民级AI眼镜。 🛒 定价 2000 元以内，预计 2025 年初上市，推动智能穿戴走向生活刚需。

（举报）